【发布时间】:2019-12-13 09:04:12
【问题描述】:
我想从一个带有空格的 Excel 文件中提取地理相关信息。它可以提取所有实体,但我只需要地理数据并且找不到过滤实体的方法。
import pandas as pd
import spacy
sp = spacy.load("en_core_web_sm")
df = pd.read_excel("test.xlsx", usecols=["Bio", "Author"])
df.head(1)
df=df.fillna('')
#df['Bio']
doc = df.values.tolist()
#print (doc)
#sp(', '.join(doc[0])).ents
for entry in doc:
#print('Current entry\n {}'.format(entry))
for entity in sp(', '.join(entry)).ents:
print(entity.text, entity.label)
目前,输出如下:
Munich 384
Germany 384
Venezuela 384
London 384
Portrait | 9191306739292312949
???? ℍ???????????? ???????????????? 383
???? ???? ???????????????????????????????????? 394
Visited:???????????? 383
???? 384
???? 392
最后,我想在csv 的新列“位置”中将地理相关实体(如果存在)写回用户行。
非常感谢您的帮助,诚挚的问候
【问题讨论】:
标签: python entity spacy named-entity-recognition