【发布时间】:2011-07-21 13:36:52
【问题描述】:
我正在开发一个系统,该系统可以根据各种用户输入(例如音节模板或修改后的 Backus Naur 表格)创建虚构的单词。不过,一种新模式计划是机器学习。在这里,用户没有明确定义任何规则,而是粘贴一些文本,系统会学习给定单词的结构并创建相似的单词。
我目前的幼稚方法是创建一个字母邻域概率表(包括一个特殊的词尾“字母”)并通过按字母对扫描输入来填充它(使用空格和标点符号作为单词边界)。创建一个单词意味着查找每个字母跟随当前字母的概率,并根据概率随机选择一个,追加并重复,直到遇到 end-of-word。
但我正在寻找(可能?)提供更好结果的更复杂的方法。我对机器学习知之甚少,因此感谢您提供有关主题、技术或算法的指针。
【问题讨论】:
-
一个小点:在语言中,如果你生成单词序列(另一个问题)或字母序列(你要求的),生成一个新单词通常要好得多/考虑到最后 两个 单词/字母(而不仅仅是一个)的字母。它仍然涉及相同的算法。额外的单词/字母不会产生明显更好的结果。
标签: language-agnostic machine-learning linguistics