【问题标题】:What features do NLP practitioners use to pick out English names?NLP从业者用什么特征来挑选英文名字?
【发布时间】:2014-07-05 09:26:51
【问题描述】:

我是第一次尝试命名实体识别。我正在寻找能够挑选英文名称的功能。我正在使用coursera nlp course(第三周)和nltk book 中列出的方法。换句话说:我正在定义特征,识别单词的特征,然后通过我在标记数据上训练的分类器运行这些单词/特征。

用什么特征来挑选英文名字?

我可以想象你会连续查找两个大写单词,或者一个大写单词,然后是首字母,然后是大写单词。 (例如 John Smith 或 James P. Smith)。

但是 NER 还使用了哪些其他功能?

【问题讨论】:

    标签: nlp nltk


    【解决方案1】:

    一些共同特点:

    • 常用名称(约翰、亚当等)的单词列表
    • 外壳
    • 包含符号或数字字符(名称通常不包含)
    • 人名前缀(先生、夫人等)
    • 人物后缀(Jr.、Sr. 等...)
    • 单字母缩写(即 (J.) Smith)。
    • 对周围词的分析(您可能会发现某些词出现在名字附近的概率很高)。
    • 之前识别的命名实体(通常根据上下文在语料库的某些部分很容易识别 NE,但在其他部分很难识别。如果之前识别,这是对 NER 的极好提示)

    根据您使用的语言,可能还有更多特定于语言的功能。坦率地说,你可以通过一个简单的谷歌查询找到大量信息,我真的不知道你为什么不去那里。然而,一些起点:

    【讨论】:

      【解决方案2】:

      我在学校使用机器学习做过类似的事情。我想您将使用监督算法,并且您将独立地对每个单词进行分类,而不是组合单词。在那种情况下,我会为单词本身选择一些特征,就像你提到的那些(如果这个词以大写字母开头,如果这个词是一个缩写),但我会添加更多的特征,比如前面或后面的词也从大写字母开始,或者如果它们是缩写。通过这种方式,您可以添加一些上下文并克服与您的基本独立性假设相关的问题。

      如果你想看看here。在机器学习部分,您可以找到更多信息和示例(问题略有不同,但方法应该相似)。

      无论您选择什么功能,重要的是您使用某种度量来评估它们的相关性,并可能将它们减少到有用的那些以避免过度拟合。您可以用来评估它们的方法之一是gain ratio,但还有更多。 Here你可以找到一些关于特征提取的基本信息。

      希望对你有帮助!

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2019-10-23
        • 2019-05-26
        • 1970-01-01
        • 1970-01-01
        • 2019-11-27
        • 2021-05-09
        • 1970-01-01
        • 2012-12-17
        相关资源
        最近更新 更多