【问题标题】:keyword extraction by using KEA or other python library使用 KEA 或其他 python 库提取关键字
【发布时间】:2016-12-02 08:52:51
【问题描述】:

我现在正在为一个关键字提取项目工作。基本上,我使用 python 来做到这一点。 先说一下我的项目是什么。 我在这个项目中的目标是从段落或网页中找出关键词(关键词不是那么可取)。

我假设我可以从网站上抓取结构良好的内容。

假设我有很多段落,并且所有段落都来自同一行业。这是示例段落之一:

关于我们

我们是世界上最伟大的银行,提供世界上最安全的服务。我们的银行提供外汇、证券交易和储蓄服务。在过去的几年里,我们成功地建立了可靠的声誉。

其次,我已将这些段落中的关键字标记为其他有监督学习模型。

最后,我尝试使用KEA,它是一个JAVA程序(我使用python调用JAVA程序),有一个模型。

然而,最终的结果非常糟糕。准确率只有15%左右。这意味着,如果我给我的 KEA 程序一个段落,KEA 会输出 10 个关键字给我,并且将近 85% 的关键字实际上都不是理想的关键字。

这里我有几个问题:

  1. 这个问题是关于 KEA 的准备材料。关键字是否应该包含在训练数据的 .txt 文件中?或者我应该从段落中删除它?因为它在 KEA 的自述文件中令人困惑:

'从那些文档中删除作者指定的关键词 并将它们放入单独的“.key”文件中。例如,如果 您的文档文件名为 doc1.txt,移动关键词 到一个名为“doc1.key”的新文件中。重要的是 您将每个关键短语放在此文件中的单独行上!'

假设我的训练数据有最后一个示例段落,并假设 'safe' 和 'reliable' 。我应该从段落中删除这两个词吗??

  1. KEA 可以应用 SKOS 词汇表,是否意味着如果我在某种主题(比如说金融行业)中使用合适的 SKOS 词汇表,我的模型结果会更好?如果是,我在哪里可以找到这些 SKOS 词汇表,例如我想要关于金融行业的 SKOS 词汇表。

  2. 是否有来自 python 的建议库可以在这个主题中强大?谁能分享给我?

非常感谢。

【问题讨论】:

    标签: java python machine-learning keyword-search


    【解决方案1】:

    实际上,我尝试使用这个 (https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words) kaggle 示例来做到这一点。但是,它太简单了。

    不知何故,我想知道更多的实践案例。就像 netfix 或 facebook 如何检测人们的评论一样。有人可以向我提供更多有关此文本挖掘信息的信息吗?

    【讨论】:

      猜你喜欢
      • 2013-11-29
      • 2015-10-28
      • 1970-01-01
      • 2019-08-16
      • 1970-01-01
      • 1970-01-01
      • 2021-11-13
      • 1970-01-01
      • 2022-07-31
      相关资源
      最近更新 更多