【发布时间】:2021-10-22 08:27:52
【问题描述】:
我正在研究这样的数据格式。
data = [{"content":'''Hello I am Aniyya. I enjoy playing Football.
I love eating grapes''',"annotations":[{"id":1,"start":11,"end":17,"tag":"name"},
{"id":2,"start":59,"end":65,"tag":"fruit"}]}]
我确实想要这样的数据格式。必须删除没有任何实体的句子。并根据删除的句子更新其他实体的开始和结束。
result_data = data = [{"content":'''Hello I am Aniyya. I love eating grapes''',"annotations":[{"id":1,"start":11,"end":17,"tag":"name"},
{"id":2,"start":33,"end":39,"tag":"fruit"}]}]
我没有得到任何特定的逻辑。我知道这就像要求为我编写代码,但如果有人有时间帮助我,我将不胜感激。我有点坚持这一点。我之前问过一个类似的问题,但它也没有解决我的问题。所以想到描述更多细节。对此的解决方案将对所有准备与 NLP 任务相关的数据集的人有所帮助。提前致谢。
可视化是用spacy displacy完成的,代码在visualizing NER training data and entity using displacy
【问题讨论】:
标签: python python-3.x string nlp spacy