【发布时间】:2013-11-24 03:57:56
【问题描述】:
如果写得不好,请提前为这篇文章道歉,因为我对 Python 非常陌生。我在使用 Python3 和 BeautifulSoup 时遇到的非常简单/愚蠢的问题。我试图在 Python 中解析一个 CSV 文件,但不知道每行的编码将包含什么,因为每行包含来自多个来源的原始数据。在我解析文件之前,我正在使用 BeautifulSoup 来尝试清理它(我不确定这是否是个好主意):
from bs4 import BeautifulSoup
def main():
try:
soup = BeautifulSoup(open('files/sdk_breakout_1027.csv'))
except Exception as e:
print(str(e))
但是,当我运行它时,我遇到了以下错误:
'ascii' 编解码器无法解码位置 287 中的 0xed 字节:序数不在范围内(128)
我的回溯指向 CSV 中的这一行作为问题的根源:
500i(í£ : Android OS : 4.0.4
有什么更好的方法来解决这个问题?我只想将此 CSV 中的所有行转换为统一编码,以便稍后解析。
感谢您的帮助。
【问题讨论】:
-
BeautifulSoup 不适用于解析 CSV - 你说得对,这不是一个好主意。
标签: python csv python-3.x beautifulsoup python-3.3