【发布时间】:2013-08-26 10:11:46
【问题描述】:
这是我目前所拥有的:
import re
import csv
outfile1 = open('test_output.csv', 'wt')
outfileWriter1 = csv.writer(outfile1, delimiter=',')
rawtext = open('rawtext.txt', 'r').read()
print(rawtext)
rawtext = rawtext.lower()
print(rawtext)
re.sub('[^A-Za-z0-9]+', '', rawtext)
print(rawtext)
首先,当我运行这个时,标点符号没有被删除,所以我想知道我的表达是否有问题?
其次,我正在尝试生成所有带有标点符号的单词的 .csv 列表,例如一个文本文件,上面写着“你好!这是美好的一天”。会输出:
ID, PUNCTUATION, WORD
1, Y, hello
2, Y, its
3, N, a
4, N, nice
5, Y, day
我知道我可以使用 .split() 来拆分单词,但除此之外我不知道该怎么做!任何帮助将不胜感激。
【问题讨论】:
-
rawtext = re.sub('[^A-Za-z0-9]+', '', rawtext),字符串是不可变的。 -
谢谢!愚蠢的错误!
标签: python csv python-3.x punctuation