使用 NLP 识别文本答案

【问题标题】：Identifying text using NLP使用 NLP 识别文本
【发布时间】：2017-11-23 10:23:36
【问题描述】：

我正在尝试使用一些 NLP 技术在下面一行文本中查找课程。

from nltk import word_tokenize, pos_tag, ne_chunk
sentence = "SDGI is offering courses like Electronics,Mechatronics, Physics,Mechanical Engineering"    
print ne_chunk(pos_tag(word_tokenize(sentence)))

结果是

(S
  (ORGANIZATION SDGI/NNP)
  is/VBZ
  offering/VBG
  courses/NNS
  like/IN
  Electronics/NNS
  ,/,
  Mechatronics/NNS
  ,/,
  (PERSON Physics/NNPS)
  ,/,
  (PERSON Mechanical/NNP Engineering/NNP))

有什么方法可以从这条线上提取课程吗？

在我的实际项目中，我会得到很多文档，我需要从中获取课程名称。

感谢任何帮助！

【问题讨论】：

标签： python nlp nltk opennlp

【解决方案1】：

从给定文本中提取所有名词。
创建一个词袋特征集，并为带有标签数据的课程训练该集。
似乎课程大多在逗号 (,) 之前或之后。二元组或三元组方法可以给出准确的结果。

【讨论】：

【解决方案2】：

这可能过于简单，但是，如果现有课程名称的数量有限，那么创建一个大型查找表、标记您的输入并尝试查找每个单词可能会更容易。会有一些边缘情况，但我不确定您是否需要对这个问题采取 ML/NLP 方法。

【讨论】：