【发布时间】:2018-09-06 23:31:03
【问题描述】:
我想知道从文本中提取意义的最佳方法是什么。我读了NLTK,它确实给了我一些关于 NLP 基础知识的好信息。
我是 nlp 的新手,所以我很难决定我的方向应该是什么。在阅读了 NLTK 文本后,我想到了可以解决我的问题的方法:
这是我的理想目标,并附有例句:
输入:
在 2018 年 8 月 29 日至 2018 年 9 月 12 日(每个星期三)和 2018 年 9 月 10 日(星期一)执行 X
以粗体输出词性标记(至少是我的设想):
在 2018 年 8 月 29 日(日期)做 X,直到(范围)9/12/ 2018(日期)(每个(频率)星期三(天 )和 2018 年 9 月 10 日(日期)(星期一)(日)
接下来,我将遍历词性标签并删除文本。我希望在对文本进行适当的分块之后,我需要做一些额外的处理才能弄清楚用户到底想要什么。这是我认为从句子中成功提取含义后的输出:
2018 年 8 月 29 日 - 2018 年 9 月 12 日,星期三
2018 年 9 月 10 日,星期一
我意识到可以通过正则表达式轻松找到月份中的日期、日期和日期等。
但我的问题是 NLTK 方法 nltk.pos_tag 方法对我不起作用。 (对于那些不熟悉的人,该方法是一个词性标注器来标注词,如名词、动词等。)我很可能需要自定义我自己的 pos_tag方法?
所以这是我的问题。是否首先标记每个标记化的单词,然后从被认为是提取意义的最佳实践的标记中分块句子?
我猜我需要某种 AI 分类来学习分块部分,以便将来我可以从多个句子中提取含义。
我的方法合理吗?我疯了吗? :)
【问题讨论】:
标签: python nlp artificial-intelligence nltk