【发布时间】:2016-10-19 22:43:05
【问题描述】:
最近我一直在玩张量流、dnns 等。现在我正在尝试实现更严肃的东西,从短句(医生指示)中检索信息。 不幸的是,我拥有的数据集一如既往地非常“脏”。当我尝试使用词嵌入时,我实际上需要“干净”的数据。举一个例子: “每天吃两粒”。药丸和每个之间缺少一个空白区域。我正在实施“标记器改进器”来查看每个句子,并根据句子中每个单词的联合概率提出新的标记化,给定整个文档中术语的频率 (tf)。当我今天这样做时,我想到了一个想法:当我可以使用强大的学习算法(例如 Lstm 网络)来为我做这件事时,为什么还要为这个问题编写次优的解决方案。但是,到今天为止,我只有一种感觉,它实际上是可以做到的。正如我们所知,在构建这样复杂的问题时,感觉并不是最好的。我不知道从哪里开始:我的训练集和学习目标应该是什么。 我知道这是一个广泛的问题,但我知道有很多才华横溢的人对 tensorflow 和神经网络有更多的了解,所以我确信有人已经解决了类似的问题,或者只是知道如何解决这个问题。 欢迎任何指导,我当然不会为您解决这个问题:) Besos 和所有 tensorflow 社区一切顺利:)
【问题讨论】:
-
文本规范化也是一个难题。从您的示例来看,这是拼写检查程序可以处理的吗?
-
只有一个关于我的数据集的上下文感知。我已经编写了运行良好的解决方案,将作为建议的答案发布
标签: tensorflow recurrent-neural-network lstm