【问题标题】:how to remove unused html codes from the file using Unix如何使用 Unix 从文件中删除未使用的 html 代码
【发布时间】:2019-08-09 06:33:40
【问题描述】:

我们有一个 HTML 源代码,将使用 informatica 工作流程进行处理。在这两者之间,我们有一个转换文件的 Unix 脚本。

过去一周我们在 informatica 中收到一个错误,说格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)

示例:

� -    Unused
 -    Unused
 -    Unused
 - Ÿ Unused

Source.

我们需要在 Unix 中处理它,并在处理之前从 HTML 文件中删除上述字符。

我尝试过使用像

这样的 sed 命令
sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&\1/g'

但它没有达到目的。此外,由于我们有太多未使用的引用,因此也无法对其进行硬编码。

您能告诉我如何进行吗?

【问题讨论】:

  • 请提供示例 HTML 源以获得更好的答案。

标签: html unix awk sed unused-variables


【解决方案1】:

这是一个有效的 (bash) 解决方案,将编码字符视为字符串。不清楚您的源是否已编码,但如果是,则可以使用:

sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'

【讨论】:

  • 非常感谢,这个命令按我的要求工作
猜你喜欢
  • 1970-01-01
  • 2012-08-22
  • 2019-07-20
  • 1970-01-01
  • 2022-10-31
  • 2017-03-09
  • 2012-08-18
  • 2021-05-25
  • 2023-02-26
相关资源
最近更新 更多