【发布时间】:2014-06-26 21:22:58
【问题描述】:
我发现 Twitter nlp 有助于标记 Click here!。它给出了一个句子所有可能的标签。
“gm先生”给了
先生早上好|总经理先生|通用汽车先生|比赛好先生|游戏大师先生|好棋先生|大师先生|早上好先生。
有什么方法可以让我根据输入句子而不是所有可能的结果找到最合适的“gm”替代品?
谢谢
【问题讨论】:
标签: nlp preprocessor data-analysis
我发现 Twitter nlp 有助于标记 Click here!。它给出了一个句子所有可能的标签。
“gm先生”给了
先生早上好|总经理先生|通用汽车先生|比赛好先生|游戏大师先生|好棋先生|大师先生|早上好先生。
有什么方法可以让我根据输入句子而不是所有可能的结果找到最合适的“gm”替代品?
谢谢
【问题讨论】:
标签: nlp preprocessor data-analysis
似乎“最合适的替代品”取决于上下文。例如,在一个主要是关于游戏的页面中,“游戏大师先生”可能是一个更好的匹配。您是否考虑过根据一些上下文数据使用某种相似性特征从中选择最佳匹配?这似乎是一个很好的起点
【讨论】:
http://mahout.apache.org/users/classification/twenty-newsgroups.html可以用来解决我的问题。我只需要爬取站点来获取训练数据。
【讨论】: