【发布时间】:2012-04-19 14:05:36
【问题描述】:
给定 2 个 html 源,我想首先使用 this 之类的东西从中提取主要内容。有没有other better libraries - 我专门寻找 Python/Javascript 的?
一旦我有两个提取的内容,我想返回一个介于 0 和 1 之间的分数,表示它们有多相似,例如来自 CNN 和 BBC 的同一主题的新闻文章的相似度得分较高,因为它们在同一主题上,或者在 Amazon.com 和 Walmart.com 上与同一产品相关的网页也会有较高的得分。我怎样才能做到这一点?是否有现有的图书馆已经这样做了?我可以使用哪些好的库?基本上我正在寻找automatic summarization、keyword extraction、named-entity recognition 和sentiment-analysis 的组合。
【问题讨论】:
标签: python nlp machine-learning text-mining semantic-analysis