【发布时间】:2016-10-03 00:12:09
【问题描述】:
我正在尝试将整个段落输入到我的文字处理器中,以先拆分成句子,然后再拆分成单词。
我尝试了以下代码,但它不起作用,
#text is the paragraph input
sent_text = sent_tokenize(text)
tokenized_text = word_tokenize(sent_text.split)
tagged = nltk.pos_tag(tokenized_text)
print(tagged)
但是这不起作用并给我错误。那么如何将段落标记为句子,然后是单词?
示例段落:
这东西似乎压倒了这只黑褐色的小狗,让他吃惊,伤到了他的心。他绝望地倒在孩子的脚下。当他重复这一击时,伴随着幼稚句子的警告,他仰面翻身,以一种特殊的方式握住他的爪子。他同时用耳朵和眼睛向孩子祈祷。
**警告:**这只是来自互联网的随机文本,我不拥有上述内容。
【问题讨论】:
-
你能发一个
text的样本吗? -
@alvas 它只是任何随机段落。
-
显示输入,因为根据编码、形状、输入的不同,代码会有所不同。
-
@alvas 这里是输入,那么应该包括什么样的编码、形状和输入差异?
-
显示一个实际的示例输入...如果它只是纯英文文本(不是社交媒体,例如 twitter),您可以轻松地做到
[pos_tag(word_tokenize(sent)) for sent in sent_tokenize(text)]并且使用 Python3 应该可以解决 utf-8 的大多数问题。但是如果你的输入是不同的编码/格式,你以后会发现更多的问题。