【问题标题】:Identifying text using NLP使用 NLP 识别文本
【发布时间】:2017-11-23 10:23:36
【问题描述】:

我正在尝试使用一些 NLP 技术在下面一行文本中查找课程。

from nltk import word_tokenize, pos_tag, ne_chunk
sentence = "SDGI is offering courses like Electronics,Mechatronics, Physics,Mechanical Engineering"    
print ne_chunk(pos_tag(word_tokenize(sentence)))

结果是

(S
  (ORGANIZATION SDGI/NNP)
  is/VBZ
  offering/VBG
  courses/NNS
  like/IN
  Electronics/NNS
  ,/,
  Mechatronics/NNS
  ,/,
  (PERSON Physics/NNPS)
  ,/,
  (PERSON Mechanical/NNP Engineering/NNP))

有什么方法可以从这条线上提取课程吗?

在我的实际项目中,我会得到很多文档,我需要从中获取课程名称。

感谢任何帮助!

【问题讨论】:

    标签: python nlp nltk opennlp


    【解决方案1】:
    1. 从给定文本中提取所有名词。
    2. 创建一个词袋特征集,并为带有标签数据的课程训练该集。
    3. 似乎课程大多在逗号 (,) 之前或之后。二元组或三元组方法可以给出准确的结果。

    【讨论】:

      【解决方案2】:

      这可能过于简单,但是,如果现有课程名称的数量有限,那么创建一个大型查找表、标记您的输入并尝试查找每个单词可能会更容易。会有一些边缘情况,但我不确定您是否需要对这个问题采取 ML/NLP 方法。

      【讨论】:

        猜你喜欢
        • 2021-05-09
        • 1970-01-01
        • 2017-10-28
        • 2018-03-08
        • 2020-07-02
        • 1970-01-01
        • 2018-04-30
        • 1970-01-01
        • 2020-02-01
        相关资源
        最近更新 更多