【发布时间】:2019-06-03 14:56:24
【问题描述】:
我正在尝试从大多数以 UTF-8 编码(并声明 <meta charset="utf-8">)但在其他一些编码中包含一些字符串(我认为是 Windows-1252 或 ISO 8859-1)的 HTML 页面中的表格读入 R . Here's an example. 我希望将所有内容正确解码为 R 数据帧。 XML::readHTMLTable 接受 encoding 参数,但似乎不允许尝试多种编码。
那么,在 R 中,如何为输入文件的每一行尝试几种编码?在 Python 3 中,我会这样做:
with open('file', 'rb') as o:
for line in o:
try:
line = line.decode('UTF-8')
except UnicodeDecodeError:
line = line.decode('Windows-1252')
【问题讨论】:
-
这个问题目前正在meta上讨论:meta.stackoverflow.com/questions/385841/…
标签: html r character-encoding