【问题标题】:Chinese character encoding with differenct operation systems/languages不同操作系统/语言的汉字编码
【发布时间】:2016-07-27 02:14:00
【问题描述】:

我无法将包含简体中文字符的 csv 文件读入我的 r。试过encoding=utf-8,gb18130,gb2130等,无法显示汉字。

我也尝试将excel的编码更改为utf8 csv,没有运气。
我也 尝试使用中文窗口并将 locale 设置为中国。没有运气。

我换成中文窗口后。 excel可以打开我的csv(英文 windows 无法正确打开)。 r studio 可以在 View() 但 R 控制台无法读取我的 csv,即使我 重装r为中文版。

我尝试了 Ubuntu,Ubuntu 甚至无法读取我的 csv。至少在 Windows 中,R studio 可以很好地读取我的数据。

我试过谷歌表格。但是我的文件太大了,谷歌表格会 连打开都不行

我厌倦了 Ubuntu 中的 Cals 并将其转换为 GB*,因为 GB 是 在 Windows R 工作室工作正常。没运气。而且需要10多个 分钟将我的 200Mb-750Mb 数据转换为 gb18013

【问题讨论】:

  • 如果你经常处理汉字。我建议你坚持使用中文Windoes,它会在大多数情况下让生活变得更轻松。
  • 好点。我希望有中文版的 Windows 和英文版的 Ubuntu。
  • 为什么我的excel可以打开我的csv,但是我的访问却不能正确打开?
  • 在访问中,可以指定编码方式。选择任何以简体中文 G* 开头的编码。

标签: r excel encoding


【解决方案1】:

Ubuntu 使用 UTF-8 作为默认的中文编码。所以你应该将其编码为 UTF-8 而不是 GB18130 或其他 GB 起始编码。

  • (1) 下载 Open Office(免费且安装速度快,有更高的 文件大小比 Ubuntu 中的 Cals)。

  • (2) 检测您的 CSV 编码。只需使用 Open office 打开您的 csv,然后选择一种显示您的汉字的编码方式。

  • (3) 将您的 csv 保存为根据您的正确编码 操作系统。中文默认Windows编码为GBK,Ubuntu为UTF8。

这应该可以解决您的文件大小问题和编码问题。您甚至不必强制编码。正常的read.csv 可以工作。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-08-22
    • 1970-01-01
    • 2015-07-24
    • 1970-01-01
    • 2017-04-10
    • 2017-12-25
    • 2011-03-22
    相关资源
    最近更新 更多