【发布时间】:2013-07-24 18:12:17
【问题描述】:
我有一张桌子,从这里开始:
TargetID SM_H1462 SM_H1463 SM_K1566 SM_X1567 SM_V1568 SM_K1534 SM_K1570 SM_K1571
ENSG00000000419.8 290 270 314 364 240 386 430 329
ENSG00000000457.8 252 230 242 220 106 234 343 321
ENSG00000000460.11 154 158 162 136 64 152 206 432
ENSG00000000938.7 20106 18664 19764 15640 19024 18508 45590 32113
我想编写一个代码来过滤每列的名称(SM_...),并且只查看每个名称中的第四个字符。第 4 个字符可以出现 4 种不同的选项:它们可以是字母 H、K、X 或 V。这可以从上表中看出,例如SM_H1462、SM_K1571 等。以字母 H 和 K 作为第 4 个字符的名称为 Control,以字母 X 或 V 作为第 4 个字符的名称为 Case。
我希望代码根据第 4 个字母分隔列名,并将它们分为两组:大小写和控制。
基本上,我们现在可以忽略数据,我只想先处理列名。
【问题讨论】:
-
?substr开始。
标签: string r filter character bioinformatics