【问题标题】:Lstm to improve tokenizationLstm 改进标记化
【发布时间】:2016-10-19 22:43:05
【问题描述】:

最近我一直在玩张量流、dnns 等。现在我正在尝试实现更严肃的东西,从短句(医生指示)中检索信息。 不幸的是,我拥有的数据集一如既往地非常“脏”。当我尝试使用词嵌入时,我实际上需要“干净”的数据。举一个例子: “每天吃两粒”。药丸和每个之间缺少一个空白区域。我正在实施“标记器改进器”来查看每个句子,并根据句子中每个单词的联合概率提出新的标记化,给定整个文档中术语的频率 (tf)。当我今天这样做时,我想到了一个想法:当我可以使用强大的学习算法(例如 Lstm 网络)来为我做这件事时,为什么还要为这个问题编写次优的解决方案。但是,到今天为止,我只有一种感觉,它实际上是可以做到的。正如我们所知,在构建这样复杂的问题时,感觉并不是最好的。我不知道从哪里开始:我的训练集和学习目标应该是什么。 我知道这是一个广泛的问题,但我知道有很多才华横溢的人对 tensorflow 和神经网络有更多的了解,所以我确信有人已经解决了类似的问题,或者只是知道如何解决这个问题。 欢迎任何指导,我当然不会为您解决这个问题:) Besos 和所有 tensorflow 社区一切顺利:)

【问题讨论】:

  • 文本规范化也是一个难题。从您的示例来看,这是拼写检查程序可以处理的吗?
  • 只有一个关于我的数据集的上下文感知。我已经编写了运行良好的解决方案,将作为建议的答案发布

标签: tensorflow recurrent-neural-network lstm


【解决方案1】:

有同样的问题。我通过使用字符级网络解决了它。基本上我重写了Character-Aware Neural Language Models,踢掉了整个“单词”元素,只保留了角色级别。

训练数据:我把我拥有的数据,尽管它是脏的,使用脏数据作为目标,并使其更脏来创建输入。

因此,您的“每天吃两粒药”将被学习,因为在许多情况下,您确实有一个干净且相似的短语,例如。 “每天早上服用一粒药丸”,以上面提到的制度作为目标,您可以在“早上服用 oe oepileach”等被破坏的输入上训练网络

【讨论】:

  • 谢谢,我会试试这个方法!目前,我只是编写了一个解决方案,以在 pyenchant.checker.SpellCheck 识别为拼写错误的单词中查找有效单词
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-10-02
  • 2023-01-03
  • 2022-08-14
  • 1970-01-01
  • 1970-01-01
  • 2010-10-30
  • 2018-01-02
相关资源
最近更新 更多