【发布时间】:2015-10-15 06:42:27
【问题描述】:
我正在使用 Python 2.7 解析一堆网页并从中获取内容,但是这些网页包含诸如“”和“”之类的字符,它们都以某种方式转换为“Äô”。这给了我一个文件,其内容看起来像这样(不包括引号):“我认为这很重要......”
使用print() 方法在终端中可以很好地打印字符串,但使用print >> file, string 或file.write(string) 似乎无法获得相同的效果。显然这是一个编码问题,但我没有成功地寻找解决这个问题的方法。我正在像这样打开文件:file = codecs.open("file.txt","w+", encoding='utf-8') 并且我正在使用 BeautifulSoup4 的 getText() 方法为字符串分配它们的值。有没有办法解决这个问题?
【问题讨论】:
-
你能给我们那个页面的链接吗?
-
因缺乏可重现的代码而投反对票。 stackoverflow.com/help/how-to-ask
标签: python string file-io unicode encoding