使用 KEA 或其他 python 库提取关键字答案

【问题标题】：keyword extraction by using KEA or other python library使用 KEA 或其他 python 库提取关键字
【发布时间】：2016-12-02 08:52:51
【问题描述】：

我现在正在为一个关键字提取项目工作。基本上，我使用 python 来做到这一点。先说一下我的项目是什么。我在这个项目中的目标是从段落或网页中找出关键词（关键词不是那么可取）。

我假设我可以从网站上抓取结构良好的内容。

假设我有很多段落，并且所有段落都来自同一行业。这是示例段落之一：

关于我们

我们是世界上最伟大的银行，提供世界上最安全的服务。我们的银行提供外汇、证券交易和储蓄服务。在过去的几年里，我们成功地建立了可靠的声誉。

其次，我已将这些段落中的关键字标记为其他有监督学习模型。

最后，我尝试使用KEA，它是一个JAVA程序（我使用python调用JAVA程序），有一个模型。

然而，最终的结果非常糟糕。准确率只有15%左右。这意味着，如果我给我的 KEA 程序一个段落，KEA 会输出 10 个关键字给我，并且将近 85% 的关键字实际上都不是理想的关键字。

这里我有几个问题：

'从那些文档中删除作者指定的关键词并将它们放入单独的“.key”文件中。例如，如果您的文档文件名为 doc1.txt，移动关键词到一个名为“doc1.key”的新文件中。重要的是您将每个关键短语放在此文件中的单独行上！'

假设我的训练数据有最后一个示例段落，并假设 'safe' 和 'reliable' 。我应该从段落中删除这两个词吗？？

KEA 可以应用 SKOS 词汇表，是否意味着如果我在某种主题（比如说金融行业）中使用合适的 SKOS 词汇表，我的模型结果会更好？如果是，我在哪里可以找到这些 SKOS 词汇表，例如我想要关于金融行业的 SKOS 词汇表。
是否有来自 python 的建议库可以在这个主题中强大？谁能分享给我？

非常感谢。

【问题讨论】：

【解决方案1】：

实际上，我尝试使用这个 (https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words) kaggle 示例来做到这一点。但是，它太简单了。

不知何故，我想知道更多的实践案例。就像 netfix 或 facebook 如何检测人们的评论一样。有人可以向我提供更多有关此文本挖掘信息的信息吗？

【讨论】：