Lstm 改进标记化答案

【问题标题】：Lstm to improve tokenizationLstm 改进标记化
【发布时间】：2016-10-19 22:43:05
【问题描述】：

最近我一直在玩张量流、dnns 等。现在我正在尝试实现更严肃的东西，从短句（医生指示）中检索信息。不幸的是，我拥有的数据集一如既往地非常“脏”。当我尝试使用词嵌入时，我实际上需要“干净”的数据。举一个例子： “每天吃两粒”。药丸和每个之间缺少一个空白区域。我正在实施“标记器改进器”来查看每个句子，并根据句子中每个单词的联合概率提出新的标记化，给定整个文档中术语的频率 (tf)。当我今天这样做时，我想到了一个想法：当我可以使用强大的学习算法（例如 Lstm 网络）来为我做这件事时，为什么还要为这个问题编写次优的解决方案。但是，到今天为止，我只有一种感觉，它实际上是可以做到的。正如我们所知，在构建这样复杂的问题时，感觉并不是最好的。我不知道从哪里开始：我的训练集和学习目标应该是什么。我知道这是一个广泛的问题，但我知道有很多才华横溢的人对 tensorflow 和神经网络有更多的了解，所以我确信有人已经解决了类似的问题，或者只是知道如何解决这个问题。欢迎任何指导，我当然不会为您解决这个问题：） Besos 和所有 tensorflow 社区一切顺利:)

【问题讨论】：

文本规范化也是一个难题。从您的示例来看，这是拼写检查程序可以处理的吗？
只有一个关于我的数据集的上下文感知。我已经编写了运行良好的解决方案，将作为建议的答案发布

标签： tensorflow recurrent-neural-network lstm

【解决方案1】：

有同样的问题。我通过使用字符级网络解决了它。基本上我重写了Character-Aware Neural Language Models，踢掉了整个“单词”元素，只保留了角色级别。

训练数据：我把我拥有的数据，尽管它是脏的，使用脏数据作为目标，并使其更脏来创建输入。

因此，您的“每天吃两粒药”将被学习，因为在许多情况下，您确实有一个干净且相似的短语，例如。 “每天早上服用一粒药丸”，以上面提到的制度作为目标，您可以在“早上服用 oe oepileach”等被破坏的输入上训练网络

【讨论】：

谢谢，我会试试这个方法！目前，我只是编写了一个解决方案，以在 pyenchant.checker.SpellCheck 识别为拼写错误的单词中查找有效单词