【发布时间】:2019-08-09 06:33:40
【问题描述】:
我们有一个 HTML 源代码,将使用 informatica 工作流程进行处理。在这两者之间,我们有一个转换文件的 Unix 脚本。
过去一周我们在 informatica 中收到一个错误,说格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)
示例:
� -  Unused
 -  Unused
 -  Unused
 - Ÿ Unused
我们需要在 Unix 中处理它,并在处理之前从 HTML 文件中删除上述字符。
我尝试过使用像
这样的 sed 命令sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&\1/g'
但它没有达到目的。此外,由于我们有太多未使用的引用,因此也无法对其进行硬编码。
您能告诉我如何进行吗?
【问题讨论】:
-
请提供示例 HTML 源以获得更好的答案。
标签: html unix awk sed unused-variables