【发布时间】:2019-11-19 13:13:10
【问题描述】:
在 R 中使用 xml2 包将 HTML 实体转换为 Unicode 字符:
xml2::read_html("<html> This is a dash – <html>")
# {xml_document}
# <html>
# [1] <body><p> This is a dash \u2013 </p></body>
我想保留 HTML 实体,因为如果我以后使用 pandoc 将 HTML 转换为 LaTeX,\u2013 将被删除,而 &#8211; 会正确转换为 --。
我怎样才能做到这一点?
编辑
我在 Linux R 3.6.1 - 包 xml2 1.2.0
【问题讨论】:
-
这不会发生在我的工作机器上(Windows 10、R 3.6.1、xml2 1.2.0)。我得到
[1] <body><p> This is a dash – </p></body>。
标签: r unicode utf-8 html-entities xml2