NLP从业者用什么特征来挑选英文名字？答案

【问题标题】：What features do NLP practitioners use to pick out English names?NLP从业者用什么特征来挑选英文名字？
【发布时间】：2014-07-05 09:26:51
【问题描述】：

我是第一次尝试命名实体识别。我正在寻找能够挑选英文名称的功能。我正在使用coursera nlp course（第三周）和nltk book 中列出的方法。换句话说：我正在定义特征，识别单词的特征，然后通过我在标记数据上训练的分类器运行这些单词/特征。

用什么特征来挑选英文名字？

我可以想象你会连续查找两个大写单词，或者一个大写单词，然后是首字母，然后是大写单词。（例如 John Smith 或 James P. Smith）。

但是 NER 还使用了哪些其他功能？

【问题讨论】：

标签： nlp nltk

【解决方案1】：

一些共同特点：

常用名称（约翰、亚当等）的单词列表
外壳
包含符号或数字字符（名称通常不包含）
人名前缀（先生、夫人等）
人物后缀（Jr.、Sr. 等...）
单字母缩写（即 (J.) Smith）。
对周围词的分析（您可能会发现某些词出现在名字附近的概率很高）。
之前识别的命名实体（通常根据上下文在语料库的某些部分很容易识别 NE，但在其他部分很难识别。如果之前识别，这是对 NER 的极好提示）

根据您使用的语言，可能还有更多特定于语言的功能。坦率地说，你可以通过一个简单的谷歌查询找到大量信息，我真的不知道你为什么不去那里。然而，一些起点：

【讨论】：

【解决方案2】：

我在学校使用机器学习做过类似的事情。我想您将使用监督算法，并且您将独立地对每个单词进行分类，而不是组合单词。在那种情况下，我会为单词本身选择一些特征，就像你提到的那些（如果这个词以大写字母开头，如果这个词是一个缩写），但我会添加更多的特征，比如前面或后面的词也从大写字母开始，或者如果它们是缩写。通过这种方式，您可以添加一些上下文并克服与您的基本独立性假设相关的问题。

如果你想看看here。在机器学习部分，您可以找到更多信息和示例（问题略有不同，但方法应该相似）。

无论您选择什么功能，重要的是您使用某种度量来评估它们的相关性，并可能将它们减少到有用的那些以避免过度拟合。您可以用来评估它们的方法之一是gain ratio，但还有更多。 Here你可以找到一些关于特征提取的基本信息。

希望对你有帮助！

【讨论】：