【问题标题】:Can you integrate your pre-trained word embeddings in a custom spaCy model?您可以将您预先训练的词嵌入集成到自定义 spaCy 模型中吗?
【发布时间】:2021-07-15 21:19:29
【问题描述】:

目前我正在尝试为罗马尼亚法律领域的 NER 开发一个 spaCy 模型。有人建议我使用以下链接中提供的特定 WE(下载 WE 的链接在最后几页 - 幻灯片 25、26、27):

https://www1.ids-mannheim.de/fileadmin/kl/CoRoLa_based_Word_Embeddings.pdf

我已经在没有“接触”预实现的 WE 的情况下训练和测试了一个模型,但我不知道如何使用外部 WE 来计算新的 spaCy 模型。任何相关的建议表示赞赏。不过,最好有一个代码示例。

【问题讨论】:

    标签: spacy word-embedding named-entity-recognition


    【解决方案1】:

    是的,使用spacy init vectors 将您的向量从word2vec 文本格式转换,然后在您的配置中将该模型指定为[initialize.vectors] 以及相关tok2vec 模型的include_static_vectors = true

    配置摘录:

    [components.tok2vec.model.embed]
    @architectures = "spacy.MultiHashEmbed.v1"
    width = ${components.tok2vec.model.encode.width}
    attrs = ["ORTH", "SHAPE"]
    rows = [5000, 2500]
    include_static_vectors = true
    
    [initialize]
    vectors = "my_vector_model"
    

    您还可以使用spacy init config -o accuracy config.cfg 生成示例配置,其中包括您可以根据需要编辑和调整的向量。

    见:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-11-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-11-14
      • 1970-01-01
      相关资源
      最近更新 更多