【发布时间】:2015-01-17 07:42:00
【问题描述】:
我想导入一些带有一些德语文本的 xml 文件,包括变音符号(如 ä、ö、ü、&、")。 但不知何故,我无法获得正确的导入。 我使用 RStudio 和 XML 包,这就是我所做的: 示例 XML 文件(来自维基百科的编辑示例):
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<verzeichnis>
<titel>Wikipedia Städteverzeichnis</titel>
<eintrag>
<stichwort>Genf</stichwort>
<eintragstext>Genf ist der Sitz von ä ü ö &...</eintragstext>
</eintrag>
</verzeichnis>
XML 文件的导入
doc <- xmlParse('data/example.xml', useInternalNodes=TRUE)
结果
> doc
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<verzeichnis>
<titel>Wikipedia Städteverzeichnis</titel>
<eintrag>
<stichwort>Genf</stichwort>
<eintragstext>Genf ist der Sitz von ä ü ö &...</eintragstext>
</eintrag>
</verzeichnis>
很明显,元音符号没有正确导入,我该如何解决?
【问题讨论】:
-
您使用的是什么版本的 R?我在我的 Mac 上使用 3.0.2,这工作正常
-
我正在使用 RStudio 和 R 3.1.2(64 位 Windows)
-
更新了我的答案。您应该能够将语言环境设置为 windows 默认为非 utf8