【发布时间】:2011-05-04 10:07:44
【问题描述】:
WinXP-x32、R-2.13.0
亲爱的名单,
我有一个问题(我认为)与 Windows 和 R 之间的交互有关。
我正在尝试用夏威夷群岛的数据抓取一张表格。这是我的 R 代码:
library(XML)
u <- "http://en.wikipedia.org/wiki/Hawaii"
tables <- readHTMLTable(u)
Islands <- tables[[5]]
输出是(第一组列):
Island Nickname > > Islands Island Nickname > > Location 1 HawaiÊ»i[7] The Big岛 19°34′N 155°30′W / 19.567°N 155.5°W / 19.567; -155.5 2 Maui[8] The Valley Isle 20°48′N 156â°20′W / 20.8°N 156.333°W / 20.8; -156.333 3 KahoÊ»olawe[9] 目标岛 20°33′N 156°36°W / 20.55°N 156.6°W / 20.55; -156.6 4 LÄnaÊ»i[10] 菠萝岛 20°50′N 156°56′W / 20.833°N 156.933°W / 20.833; -156.933 5 MolokaÊ»i[11] 友好岛 21°08′N 157°02′W / 21.133â°N 157.033°W / 21.133; -157.033 6 OÊ»ahu[12] 聚集地 21°28′N 157°59′W / 21.467°N 157.983°W / 21.467; -157.983 7 KauaÊ»i[13] 花园岛 22°05′N 159°30′W / 22.083â°N 159.5°W / 22.083; -159.5 8 NiÊ»ihau[14] 禁岛
21°54°N 160°10°W / 21.9°N 160.167°W / 21.9; -160.167
如您所见,其中有“奇怪”的字符。我也试过readHTMLTable(u, encoding = "UTF-16") 和readHTMLTable(u, encoding = "UTF-8")
但这没有帮助。
在我看来,字符集和 R 的 Windows 设置的交互可能存在问题。
sessionInfo()给了
> sessionInfo()
R version 2.13.0 (2011-04-13)
Platform: i386-pc-mingw32/i386 (32-bit)
locale:
[1] LC_COLLATE=Dutch_Netherlands.1252 LC_CTYPE=Dutch_Netherlands.1252 LC_MONETARY=Dutch_Netherlands.1252
[4] LC_NUMERIC=C LC_TIME=Dutch_Netherlands.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] XML_3.2-0.2
我还尝试通过输入:Sys.setlocale("LC_ALL", "en_US.UTF-8") 让 R 使用另一个设置,但这会产生响应:
> Sys.setlocale("LC_ALL", "en_US.UTF-8")
[1] ""
Warning message:
In Sys.setlocale("LC_ALL", "en_US.UTF-8") :
OS reports request to set locale to "en_US.UTF-8" cannot be honored
此外,我尝试直接从 Windows 命令提示符进行更改,使用:chcp 65001 及其变体,但这并没有改变任何东西。
我在网上搜索时注意到其他人也有此问题,但未能找到解决方案。我看起来这是一个关于 Windows 和 R 如何交互的问题。不幸的是,我可以使用的所有三台计算机都有这个问题。在 WinXP-x32 和 Win7-x86 下都会出现。
有没有办法让 R 覆盖 Windows 设置,或者问题可以通过其他方式解决吗? 我也试过其他网站,每次要刮的文字里有é、ü、ä、î等时都会出现这个问题。
谢谢你, 罗杰
【问题讨论】:
-
发帖,为 Ripley 教授 +1:stat.ethz.ch/pipermail/r-help/2011-May/277057.html
-
奇怪。我运行的是 Windows 7(64 位),您的代码在我的机器上运行良好。
-
只是在黑暗中拍摄:
Set.setlocale的文档建议更改会话中的编码可能会被忽略且不推荐。您可以尝试从命令行启动 R 并声明编码为here
标签: windows r localization locale