【发布时间】:2010-03-10 17:22:53
【问题描述】:
是否有任何压缩算法(有损或无损)专门适用于处理现实世界(混乱和无效)的 HTML 内容?
如果不是,我们可以利用 HTML 的哪些特性来创建这样的算法?潜在的性能提升是什么?
另外,我不是问提供此类内容的问题(通过 Apache 或任何其他服务器),虽然这当然很有趣,但要存储和分析它。
更新:我不是指 GZIP——这很明显——而是一种专门旨在利用 HTML 内容特征的算法。例如,可预测的标签和树结构。
【问题讨论】:
-
有损?
-
不,在某种意义上是有损的:
whatever wordwhateverwhatever 可能变成:
whatever wordwhatever
...就像 tidy 维护结构并清理页面代码一样。 -
据我了解,大多数压缩算法都是基于内容的统计重复。开始和结束标签落在这些边界内,任何体面的现成压缩算法就足够了,因为毕竟 HTML 都是 ASCII。我不确定您要对存储的数据运行哪种类型的分析,但一个重要的方面是在您可以对其进行分析之前,此类压缩内容所涉及的解压缩成本。
标签: html algorithm compression