【发布时间】:2012-04-20 01:26:42
【问题描述】:
我想识别特定领域(例如棒球)中的命名实体。我知道有可用的工具,如 StanfordNER、LingPipe、AlchemyAPI,我已经对它们进行了一些测试。但正如我之前提到的,我希望它们是特定于领域的。这怎么可能?
【问题讨论】:
-
“特定领域”是指特定领域还是领域?将 NER 训练到特定领域的特定语料库可能是一种解决方案。
-
@Kenston 我的错误。是的,我的意思是专注于特定领域。例如,如果我根据棒球运动员的名字训练 NER 分类器,它是否可以继续只接受该域的名称而不接受政治家或任何其他人的名字?他们有我想要的这种行为吗?
-
我认为这取决于所使用的功能。如果这些特征更多地用于案例(标题或大写),那么很可能会包括政治家的名字。拥有地名录(球员姓名列表)不适合您吗?
-
但是如何创建这样一个包含所有玩家姓名的列表呢?
-
您可以从 Internet 上的各种来源挖掘它们,例如 Wikipedia (en.wikipedia.org/wiki/List_of_Major_League_Baseball_players) 或体育网站。这取决于您想要的详尽程度,以及您的测试数据的难度。考虑一下棒球运动员是前政治家。上下文是否表明某个名字很可能是玩家?你想在什么情况下确定球员的名字?或者您是否试图确定某个名字是否可能是棒球运动员,这意味着无论其上下文如何,它都与该名字有关?
标签: nlp machine-learning named-entity-recognition