【发布时间】:2012-12-29 01:03:42
【问题描述】:
我有大量 HTML 文件,其中包含来自节点 span 中杂志的文本。我的 PDF 到 HTML 转换器在整个 HTML 中插入了字符实体  。问题在于,在 R 中,我使用 xmlValue 函数(在 XML 包中)来提取文本,但无论哪里有  ,单词之间的空格都会被消除。例如:
<span class="ft6">kids, and kids in your community, in DIY projects. </span>
会从xmlValue函数中出来:
"kids,and kids in your community,in DIYprojects."
我在想解决这个问题的最简单方法是在通过xmlValue 运行span 节点之前找到所有&nbsp;,并将它们替换为" "(空格)。我将如何处理?
【问题讨论】:
标签: html r xml-parsing character replace