【发布时间】:2011-06-14 17:09:05
【问题描述】:
当您看到来自多个来源的新闻时,多个来源(网站)可能会谈论相同的内容。
是否有任何 Python/C++/C#/Java 库来比较来自不同来源的多个句子并确定它们之间的相关性,以便将结果用于新闻分组?
【问题讨论】:
当您看到来自多个来源的新闻时,多个来源(网站)可能会谈论相同的内容。
是否有任何 Python/C++/C#/Java 库来比较来自不同来源的多个句子并确定它们之间的相关性,以便将结果用于新闻分组?
【问题讨论】:
看看ntlk。他们有一个分类模块,用于各种类型的分类。
【讨论】:
参考这里:Web page content analysis with "SmartBrowser" 这是interesting sample,但您需要联系作者。
【讨论】: