【发布时间】:2012-09-13 19:01:16
【问题描述】:
我正在编写一个应用程序来使用 Java 和 JSOAP 从网站上抓取一些文章。该应用程序将文章的某些部分编译为 .tex (LaTeX) 文档,然后使用 PDFLatex 将其转换为 PDF。
某些页面包含 HTML 实体,如 & 或 ",这些在 PDF 转换过程中会导致错误。如何解决此问题?
【问题讨论】:
-
& 不是 UTF8 字符,它是一个 html 实体
-
UTF-8 是一种 Unicode 编码。您正在描述字符实体 - 这些是 HTML/XML/SGML 实体,与 Unicode 无关。
-
公平地说,实体是
&而不是&amp -
请修正您的问题,以防止进一步投票;首先,标题应该是“将 html 实体转换为乳胶字符”。当您将事物称为
&时,请修正使用实体一词,它们不是 utf8 字符。 -
@oded 无论如何都不是真的,它们与 utf8 无关;但每个命名实体直接代表一个 unicode 字符。 unicode != utf8,即使它们被同义使用。
标签: java html encoding utf-8 latex