【发布时间】:2015-08-22 00:07:08
【问题描述】:
我目前正在从事一个分析质量试卷问题的项目。在这里,我使用 Python 3.4 和 NLTK。
所以首先我想把每个问题从正文中单独拿出来。试卷格式如下。
(Q1). What is web 3.0?
(Q2). Explain about blogs.
(Q3). What is mean by semantic web?
and so on ........
所以现在我想在没有问题编号的情况下一一提取问题(问题编号格式始终与上面给出的相同)。所以我的结果应该是这样的。
What is web 3.0?
Explain about blogs.
What is mean by semantic web?
那么如何使用带有 NLTK 的 python 3.4 解决这个问题呢?
谢谢
【问题讨论】:
-
为什么需要 NLTK?看起来你可以通过一个简单的正则表达式来删除它。
-
是的先生。我正在使用 NLTK 进行进一步分析。我不知道这项工作是否需要 NLTK。无论如何,你能告诉我如何使用正则表达式来做到这一点吗?
-
使用 re.sub: docs.python.org/2/library/re.html#re.sub
标签: python regex nlp nltk tokenize