【发布时间】:2018-01-15 20:41:48
【问题描述】:
我是 Pandas 的新手,所以请原谅我缺乏经验。 尽管如此,我已经在这里解决了我的问题的很多部分。
为简单起见,我们以Quantile Normalization 上的 wiki 文章为例:
A 5 4 3
B 2 1 4
C 3 4 6
D 4 2 8
并更新它以适应我正在处理的数据结构:
df = pd.DataFrame({
'gene': ['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd', 'e', 'e', 'e', 'f', 'f', 'f'],
'rep': [1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3],
'val': [5, 4, 3, 2, 1, 4, 3, 4, 6, 4, 2, 8, 0, 1, 0, 0, 2, 4],
'subset':['y', 'y', 'y', 'y', 'y', 'y', 'y', 'y', 'y', 'y', 'y', 'y', 'n', 'n', 'n', 'n', 'n', 'n']
})
gene rep subset val
0 a 1 y 5
1 a 2 y 4
2 a 3 y 3
3 b 1 y 2
4 b 2 y 1
5 b 3 y 4
6 c 1 y 3
7 c 2 y 4
8 c 3 y 6
9 d 1 y 4
10 d 2 y 2
11 d 3 y 8
12 e 1 n 0
13 e 2 n 1
14 e 3 n 0
15 f 1 n 0
16 f 2 n 2
17 f 3 n 4
这种扁平结构可能看起来很奇怪且效率低下(至少是多余的),但对于我的特定用例 - 这是最好的选择 - 所以请放心使用。
在这个例子中,我们想要对原始数据(基因 a - d)运行分位数归一化,所以我们抓取子集(在某些元数据键上获取子集):
sub = df[df.subset == 'y']
形状仍然关闭,所以使用pivot 函数,正如我最近从@Wan 从我的GroupBy question 那里学到的:
piv = sub.pivot(index='gene', columns='rep', values='val')
rep 1 2 3
gene
a 5 4 3
b 2 1 4
c 3 4 6
d 4 2 8
这会导致其他列丢失,这些列可能与以后相关,也可能不相关。 继续,使用我可以处理混合数据帧的quantile normalization 函数:
quantile_normalize(piv, [1, 2, 3])
rep 1 2 3
gene
a 5.666667 4.666667 2.000000
b 2.000000 2.000000 3.000000
c 3.000000 4.666667 4.666667
d 4.666667 3.000000 5.666667
这是 wiki 的预期结果:
A 5.67 4.67 2.00
B 2.00 2.00 3.00
C 3.00 4.67 4.67
D 4.67 3.00 5.67
整洁。
现在我的问题:
如何获取这些值并将它们重新插入到原始数据框中?
【问题讨论】:
标签: python pandas pandas-groupby