转载自:https://forum.huaweicloud.com/thread-8391-1-1.html
最近一直在使用华为云的云搜索服务。开心的是,华为云的云搜索服务,可以自定义自己的词库来做分词、停词。让他更意想不到的是,修改词库还可以热更新,不用重启即可生效。
但是,词库中的词从哪里来,哪些才是有用的词,这真是让人头疼的事情。每天苦读海量文章,才能从中找出几个自己认为还不错的词。只能自己写一个工具了。
下面,介绍下如何使用。
第一步,找到一篇最近大火的复仇者联盟的电影新闻,把它拷贝到小工具(文章很长也可以存储在txt文件后上传)。
第二步,点击“Submit”,后台就开始通过各种大数据算法计算。不一会,结果就显示出来啦。
恩~~~看来提词效果还不错,我们再来看看有没有其他一些有趣的结果呢
我们发现像“迪士尼”,“漫威”这样的词也能被很好地发现。
这样,在使用华为云的云搜索服务的时候,可以把这些新发现的词语加入词库,方便分词,提高搜索结果了呢~
进一步,如果用这个工具分析下一篇文章,“迪士尼”或“漫威”可能会重复出现。为了更有效率,添加了一个过滤功能
这样,把已发现的词放在这里,下一次就不会出现,每次都能发现新词啦~~~
我们看下结果
“迪士尼”和“漫威”就真的没出现了哦
链接: