【发布时间】:2017-08-21 00:37:14
【问题描述】:
我遇到了关于换行符和返回字符的问题。呃,这对我来说很难解释,但我会努力的。
我有以列表形式存在的数据。列表的成员中包含换行符。
example_list = ["I've always loved jumping\n\n"]
为了通过 NLTK 使用 NLP 标记这个句子,我需要将句子放在一个字符串中。根据我运行的一些测试和 nltk 教程中的证据,NLTK 在标记化时会忽略换行符和其他转义字符。
问题是当我尝试将 example_list 转换为字符串时,我得到了这个输出
str(example_list)
'["I\'ve always loved jumping\\n\\n"]'
请注意,所有换行符现在都变成了转义的正斜杠。尝试对此进行标记会产生一个糟糕的结果,NLTK 认为 jumping\n\n 是一个大词,因为它认为带有两个斜杠的换行符实际上是文本。
有没有人知道任何技巧或良好做法,以确保我的列表中永远不存在换行符,或者在转换为字符串时这些字符被忽略或“双重转义”。
最后,关于python如何处理换行符以及这些字符如何与不同数据类型交互等相关的学习材料,是否有人有任何建议,因为它太令人困惑了。
非常感谢!
【问题讨论】:
-
可以使用
strip()删除\n等 -
@BhargavRao,你为什么要删除 OP 的自我回答?
-
@alexis,部分是我的错,我将其标记为不是答案,因为它只是链接。投票取消删除它。
标签: string list nlp nltk newline