【问题标题】:Use Spacy Models to find Modal Verb for languages fr, es, ru使用 Spacy 模型查找语言 fr、es、ru 的情态动词
【发布时间】:2020-01-13 08:57:05
【问题描述】:

我正在使用 Spacy 模型从以下语言中查找情态动词 (MD)。

en
de
fr
es
ru

entag_map.pyde 可以清楚地看出"VerbType": "mod" 是一个情态动词。但是tag_map.py 对于fresru 没有任何此类属性。如何找出这 3 种语言中的情态动词(我应该关注哪些属性)?还有什么通用的方法可以让我找到 Spacy 未来发布的任何语言的情态动词,比如说希腊语已经发布?

注意:我不是在寻找高级标签,而是在寻找低级标签。在 Spacy 术语中,我更喜欢 token.tag_ 属性。

【问题讨论】:

    标签: nlp spacy linguistics


    【解决方案1】:

    我认为目前没有一种独立于语言的方式来做到这一点。但是情态词是封闭类词,所以只要检查token.tag_ == 'AUX'(尽管在德语中,情态动词被标记为VERB)以及token.lemma_是否在一组情态动词中就可以了。

    【讨论】:

      【解决方案2】:

      目前我正在做一个类似的项目。

      英文版可以使用token.dep_ == 'AUX' and token.tag_ = 'MD'

      例如:

      for token in doc:
          if token.dep_ == 'aux' and token.tag_ == 'MD': 
             print(token.text)
      

      对于德语,我得到的最接近的是这样的:

      sent = 'Ich muss auf den Lehrer hören'
      
      nlp = spacy.load("de_core_news_sm")
      doc = nlp(sent)
      print(doc.text)
      for token in doc:
          print(token.text, token.pos_, token.dep_, token.morph)
      
      Ich muss auf den Lehrer hören
      Ich PRON sb Case=Nom|Number=Sing|Person=1|PronType=Prs
      muss VERB ROOT Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
      auf ADP mo 
      den DET nk Case=Acc|Definite=Def|Gender=Masc|Number=Sing|PronType=Art
      Lehrer NOUN nk Case=Acc|Gender=Masc|Number=Sing
      hören VERB oc VerbForm=Inf
          
      for token in doc:
        if token.morph.get('VerbForm') == ['Fin']:
          print(token.text)
      
      muss
      

      您还可以为德语模式创建停止列表并添加查询以查看 token.lemma_

      modals = ['mussen']
      for token in doc:
        if token.lemma_ in modals:
          print(token.text)
      
      muss
      

      不确定其他语言stoplist 方法可能有效。

      【讨论】:

      • 问题是关于French(fr), Spanish(es) and Russian (ru) 语言。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-04-18
      相关资源
      最近更新 更多