【发布时间】:2012-03-16 08:59:29
【问题描述】:
是否有任何库或算法可以自动检测文本中的标签(忽略所选语言的常用词)?
类似这样的:
string[] keywords = GetKeyword("Your order is num #0123456789")
和关键字[] 将包含“订单”和“#0123456789”...? 它存在吗?还是用户会一直自己选择每个文档的所有标签? :?
【问题讨论】:
-
你看过正则表达式吗?
-
您是否要从给定的白名单中过滤掉关键字?
-
是的,如果没有其他方法可以在不指定任何规则的情况下自动查找单词,我会使用它。 (我知道,我的查询可能很愚蠢......:$)
-
您能否将输入到程序中的每个单词的实例存储在数据库表中,然后为每个单词递增一个计数器,然后随着时间的推移,使用次数最多的单词将位于桌子的顶部。不过,这并没有说明什么是“重要的”。您对“重要”的定义必须在代码中进行一些定义,可能是使用计数器加上单词的长度,单词越长越“重要”?无论哪种方式都可能超出任何人都可以提供的快速答案,所以我猜!
标签: c# .net algorithm tags keyword