【问题标题】:Named entity recognition with a small data set (corpus)使用小数据集(语料库)的命名实体识别
【发布时间】:2015-06-14 11:12:39
【问题描述】:

我想用波斯语开发一个命名实体识别系统,但我们有一个小的 NER 标记语料库用于训练和测试。也许将来我们会有更好更大的语料库。 顺便说一句,我需要一个解决方案,只要添加新数据而不将新数据与旧数据合并并从头开始训练,就可以逐步获得更好的性能。 有什么解决办法吗?

【问题讨论】:

    标签: continuous-deployment named-entity-recognition reinforcement-learning named-entity-extraction


    【解决方案1】:

    是的。在您的帮助下:这是一项正在进行的工作。是 JS 和“没有培训......”

    请看 https://github.com/redaktor/nlp_compromise/

    这是我最近几天在 NER 上工作的一个分支,它将针对不同语言的使用进行优化!!!

    它是单词字典、规则字典+构建工具的组合。 从事波斯语支持​​工作会很棒(我正在研究德语)...... 计划支持NER的

    • '红衣主教'-> [准备就绪]
    • 'DATE' -> 基于日历 [公历已准备就绪]
    • 'DURATION' -> 见上文 [日期范围已准备就绪]
    • 'MEASURE' -> 基于系统 [公制和 SI 单位就绪,80 多个类别]
    • 'MONEY' -> 基于货币 [几天后准备就绪]
    • 'PERSON' -> 基于单词/规则 [准备好英文/欧洲名称]
    • '组织'
    • '位置'

    我认为这可能是一个起点? 我没有时间记录新功能 - 请随时在 github 上打开问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-05-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-07-02
      • 1970-01-01
      • 2014-03-17
      相关资源
      最近更新 更多