【发布时间】:2016-12-02 08:52:51
【问题描述】:
我现在正在为一个关键字提取项目工作。基本上,我使用 python 来做到这一点。 先说一下我的项目是什么。 我在这个项目中的目标是从段落或网页中找出关键词(关键词不是那么可取)。
我假设我可以从网站上抓取结构良好的内容。
假设我有很多段落,并且所有段落都来自同一行业。这是示例段落之一:
关于我们
我们是世界上最伟大的银行,提供世界上最安全的服务。我们的银行提供外汇、证券交易和储蓄服务。在过去的几年里,我们成功地建立了可靠的声誉。
其次,我已将这些段落中的关键字标记为其他有监督学习模型。
最后,我尝试使用KEA,它是一个JAVA程序(我使用python调用JAVA程序),有一个模型。
然而,最终的结果非常糟糕。准确率只有15%左右。这意味着,如果我给我的 KEA 程序一个段落,KEA 会输出 10 个关键字给我,并且将近 85% 的关键字实际上都不是理想的关键字。
这里我有几个问题:
- 这个问题是关于 KEA 的准备材料。关键字是否应该包含在训练数据的 .txt 文件中?或者我应该从段落中删除它?因为它在 KEA 的自述文件中令人困惑:
'从那些文档中删除作者指定的关键词 并将它们放入单独的“.key”文件中。例如,如果 您的文档文件名为 doc1.txt,移动关键词 到一个名为“doc1.key”的新文件中。重要的是 您将每个关键短语放在此文件中的单独行上!'
假设我的训练数据有最后一个示例段落,并假设 'safe' 和 'reliable' 。我应该从段落中删除这两个词吗??
-
KEA 可以应用 SKOS 词汇表,是否意味着如果我在某种主题(比如说金融行业)中使用合适的 SKOS 词汇表,我的模型结果会更好?如果是,我在哪里可以找到这些 SKOS 词汇表,例如我想要关于金融行业的 SKOS 词汇表。
-
是否有来自 python 的建议库可以在这个主题中强大?谁能分享给我?
非常感谢。
【问题讨论】:
标签: java python machine-learning keyword-search