【问题标题】:Spacy model types and available functionality mappingSpacy 模型类型和可用功能映射
【发布时间】:2018-05-01 07:28:09
【问题描述】:

Spacy models 与不同的“类型”相关联,包括:词汇、句法、实体和向量。实体和向量映射到文档中可用特征的方式是显而易见的(实体识别和词向量),但是在解析文本后,词汇和语法如何与文档中可用的特征相关联?例如,多语言模型“xx_ent_wiki_sm”不提供“词汇表”,这是否意味着使用该模型将无法使用令牌的 is_oov?我问这个是因为我想在 Spacy 之上提供一个在不同语言模型上运行的 Web 服务。

【问题讨论】:

    标签: spacy


    【解决方案1】:

    “语法”是指依赖解析所有相关的语言特征和属性。例如,token.dep_token.headdoc.noun_chunksdoc.sents——本质上是所有需要依赖解析的东西(see this page 用于快速概览)。

    “词汇表”表示Vocab 预先填充了一些最常用的单词。如果模型没有附带词汇,所有标记都将超出词汇并返回Trueis_oov。较大的模型通常还附带较大的词汇表。 sm 模型还应附带最常用词的基本词汇表 - 但当前设置某些数据的方式可能存在问题,应在模型的下一次更新中修复。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-10-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-05-31
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多