【发布时间】:2011-08-11 18:45:12
【问题描述】:
我有一个大字典文件 dic.txt(实际上是SOWPODS),每行一个英文单词。我想自动将此文件拆分为 3 个不同的文件 easy_dic.txt(我们每天使用的最常见的单词 - 16 岁的词汇),medium_dic.txt(不太常用但仍然为许多人所知的单词 - 知识一个 30 岁的减去在 easy_dic.txt 中找到的单词),hard_dic.txt(只有专业拼字游戏玩家会知道的非常深奥的单词)。实现此目的最简单的方法是什么(您可以使用互联网上的任何资源)?
【问题讨论】:
-
相当开放。仅使用字典文件是不可能的。
-
好吧,显然您可以使用互联网上的任何可用资源。我想知道是否有任何可用的 API。我不认为这个问题是开放式的,很清楚需要做什么。
-
@Oded 也许你是对的,但是这个问题很有趣,并且有很多有用的结果。在尝试制作一个模块来为拼写错误的单词生成建议时,我遇到了同样的问题。通过推荐最常用的单词(在一定的编辑距离区间内),软件的猜测能力大大提高。
-
@belisarius - 是的,我的用例是一个类似拼字游戏的游戏,有 3 个难度级别,其中 AI 在更高的难度级别使用更多深奥的单词。
-
在你的算法中加入一个 16 岁、30 岁和专业的拼字游戏玩家!
标签: language-agnostic data-mining classification