【问题标题】:How do I sort a matrix via two indepedent columns?如何通过两个独立的列对矩阵进行排序?
【发布时间】:2018-11-28 07:34:09
【问题描述】:

我最近开始编程,我的任务是根据剂量与安慰剂找出药物不同反应的平均值。我有一个 4 列的 Excel 文件,它分别分为 Drug_1_DosageDrug_1_ResponseDrug_2_DosageDrug_2_Response

我正在尝试在 Jupyter 笔记本中对这些值进行排序,以便 Drug_1_Dosage1-8 的所有实例都以升序方式排序(例如,剂量为 1 的行超过 1 行),同时也为Drug_2_Dosage 做同样的事情(但不影响第一个)。

我想对它们进行排序,以便稍后计算平均值并将其表示为两列矩阵。

到目前为止,我有这个:

import numpy as np
import pandas as pd

file = open('/Users/Envy/Desktop/Assingment Data.csv',"r")
table = pd.read_csv('/Users/Envy/Desktop/Assingment Data.csv')
drug_1_d = table.iloc[:,0]
drug_1_r = table.iloc[:,1]
drug_2_d = table.iloc[:,2]
drug_2_r = table.iloc[:,3]

到目前为止,一切正常,因为我可以独立选择每一列。我尝试了以下排序没有成功:

1) table = table.sort_values(['Dose drug 1', 'Dose drug 1'],ascending = True)
   table = pd.DataFrame.as_matrix(table)
   table = table[table[:,0].argsort()]
2) table.sort(order=['f1'],axis=0)
3) table.sort_values(['Dose drug 1', 'Dose drug 2'], ascending=[True])
4) table = table.sort_values([:0,:2],ascending=[True]) 

编辑:

嘿,我做了一些刺激,这适用于上面的代码

table = table.sort_values(['Dose drug 1', 'Dose drug 1'],ascending = True)
table = pd.DataFrame.as_matrix(table) 
print(table) 

但它会返回

[[ 1 21  3 27]
 [ 1 19  7 10]
 [ 1 32  3 12]
 ...
 [ 8 18  4 24]
 [ 8  9  1 10]
 [ 8 13  2  9]]

这意味着它只按第 0 列排序,而不是按第 2 列排序,就像我想要的那样。知道如何独立拥有这两种类型吗?

编辑:经过多次反复试验,我现在有了解决方案;

#Generate average response to dosage in 2 column matrix
table = pd.read_csv('Assingment Data.csv', sep=',')
final_means = pd.DataFrame()
# Grouping by Drug 1
final_means['Average Response Drug'] = table.groupby(['Dose drug 1'])['Response drug 1'].mean()
# Grouping by Drug 2
final_means['Average Response Placebo'] = table.groupby(['Dose drug 2'])['Response drug 2'].mean()
final_means.index.names = ['Dose']
print(final_means)

【问题讨论】:

  • 你熟悉Pandas的@​​987654321@操作吗?这允许您对每个组进行推理,而无需显式对表进行排序
  • 非常感谢!稍加修改就解决了这个问题。我为将来的问题添加了解决方案
  • @Energya 请提交您的评论作为问题的解决方案。

标签: python columnsorting


【解决方案1】:

你熟悉 Pandas 的groupby 操作吗?这允许您对每个组进行推理,而无需显式对表进行排序

一个简单的例子:

>>> import pandas as pd
>>> df = pd.DataFrame(data={'col1': [0,0,1,1], 'col2': [1,2,3,4]})
>>> df
   col1  col2
0     0     1
1     0     2
2     1     3
3     1     4
>>> df.groupby('col1').mean()
      col2
col1
0      1.5
1      3.5

(感谢@Sean-Pianka 建议我将我的评论作为单独的答案发表)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-10-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-03-25
    • 2019-03-28
    • 1970-01-01
    相关资源
    最近更新 更多