【发布时间】:2021-02-15 11:13:08
【问题描述】:
我的命名实体识别有一个按单词拆分的数据集。我想将一些单词组合在一起,而不是在不应该的时候将它们分开。
数据集示例:
print(df[:5])
ID Word Start_Idx End_Idx
1 I 1 2
2 live 4 8
3 in 10 12
4 New 14 17
5 York 18 22
如你所见,纽约被一分为二,但索引仅用 1 隔开,而其他单词索引则用 2(或更多)隔开。
如何编写代码,遍历 End_Idx 和 Start_Idx 并查找以 1 分隔的单词,然后将它们放在一起,因此我可以打印如下数据帧:
print(df[:5])
ID Word Start_Idx End_Idx
1 I 1 2
2 live 4 8
3 in 10 12
4 New York 14 22
【问题讨论】:
-
您在哪个部分遇到了问题?迭代?确定索引分离是否为一?当您发现索引由一个分隔时将两个单词放在一起?