如何将 csv 文件转换为字符级 one-hot-encode 矩阵？答案

【问题标题】：how to convert a csv file to character level one-hot-encode matrices?如何将 csv 文件转换为字符级 one-hot-encode 矩阵？
【发布时间】：2021-11-16 00:48:37
【问题描述】：

我有一个如下所示的 CSV 文件

我想选择最后一列并制作每个序列的字符级 one-hot-encode 矩阵，我使用此代码但它不起作用

data = pd.read_csv('database.csv', usecols=[4])
alphabet = ['A', 'C', 'D', 'E', 'F', 'G','H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']
charto = dict((c,i) for i,c in enumerate(alphabet))
iint = [charto[char] for char in data]
onehot2 = []
for s in iint:
    lett = [0 for _ in range(len(alphabet))]
    lett[s] = 1
    onehot2.append(lett)

您建议为这项任务做什么？（顺便说一下，我想将此数据集用于 PyTorch 模型）

【问题讨论】：

不回答您的问题，但如果您想制作相同的字母列表并避免输入每个字母的痛苦，您可以随时使用：from string import ascii_uppercase 然后 [ascii_uppercase[:26]] + ["\n"]
@Odhian 是的，你是对的，但问题是我只需要 20 个 FASTA 字符，我不能使用全部 26 个字符
啊，是的，没注意到我的不好！

标签： python pandas pytorch one-hot-encoding

【解决方案1】：

我认为最好保持 pd.DataFrame 原样并在 PyTorch 数据集中“即时”进行转换。

首先，类似于您的虚拟数据：

df = pd.DataFrame(
    {
        "ID": [1, 2, 3],
        "Source": ["Serbia", "Poland", "Germany"],
        "Sequence": ["ABCDE", "EBCDA", "AAD"],
    }
)

之后，我们可以创建torch.utils.data.Dataset 类（示例字母显示，您可以将其更改为您想要的任何内容）：

class Dataset(torch.utils.data.Dataset):
    def __init__(self, df: pd.DataFrame):
        self.df = df
        # Change alphabet to anything you need
        alphabet = ["A", "B", "C", "D", "E", "F"]
        self.mapping = dict((c, i) for i, c in enumerate(alphabet))

    def __getitem__(self, index):
        sample = df.iloc[index]
        sequence = sample["Sequence"]
        target = torch.nn.functional.one_hot(
            torch.tensor([self.mapping[letter] for letter in sequence]),
            num_classes=len(self.mapping),
        )
        return sample.drop("Sequence"), target

    def __len__(self):
        return len(self.df)

此代码只是通过torch.nn.functional.one_hot 函数将字母索引转换为它们的 one-hot 编码。

用法很简单：

ds = Dataset(df)
ds[0]

返回（您可能想要更改样本的创建方式，因为我不确定格式并且只关注热编码目标）以下目标（ID 和 Source 省略）：

tensor([ [1., 0., 0., 0., 0., 0.],
         [0., 1., 0., 0., 0., 0.],
         [0., 0., 1., 0., 0., 0.],
         [0., 0., 0., 1., 0., 0.],
         [0., 0., 0., 0., 1., 0.]]))

【讨论】：

感谢您的帮助