【问题标题】:How to transform large groups of similar crappy html pages into quality css-based pages?如何将大量类似的糟糕 html 页面转换为高质量的基于 css 的页面?
【发布时间】:2010-10-22 02:51:13
【问题描述】:

以编程方式将大量非常相似的网页转换为更新的基于 css 的布局的最佳方法是什么?

我正在将旧网站的所有内容更改为基于 css 的新布局。许多页面都非常相似,我希望能够自动化该过程。

我目前正在考虑做的是使用 HtmlAgilityPack 读取页面,并为每组相似的页面创建一个方法来创建输出文本。

您认为最好的方法是什么?这些页面的主要区别在于图像使用了哪个 .jpg 文件,或者该特定页面上有多少组标题图像文本

编辑:我不能使用 .html 以外的任何其他文件类型,因为这是我被授权做的所有事情。有什么建议吗?

EDIT2:理想情况下,我还可以使其足够通用,只需切换几个移动部件,我就可以将它用于许多不同的 html 文件组。

SAMPLE OF TYPICAL PAGE

上面的链接是我正在处理的示例。页面之间不同的部分是:

  • 元描述标签
  • 各种标题,尤其是主标题
  • 页面上的几乎每张图片都是新的
  • 每个视频的文字都是独一无二的,但它们会被组合成相似的块
  • 视频文件和视频大小将是唯一的

其他都一样,页面的格式也一样。

EDIT3:当有疑问时,可能有帮助的另一件事是编写一些代码来为我编写页面。我只需要剪掉原始的可变部分,并将它们放入一个数据文件中,该文件被读取并用于写入新版本。

【问题讨论】:

  • 如果您提供一个典型页面的示例,并标出可能出现差异的位置,可能会对您有所帮助,以便我们了解您的页面类型'正在处理......

标签: html css


【解决方案1】:

这取决于“非常相似”实际上有多相似。如果您的意思是他们有效地使用了许多模板,那么我可能会使用Template-Toolkit 为新设计构建新模板并使用Template::Extract 吸出数据。可能会将数据存储在本地数据库中,以便将来更轻松地重建页面。

【讨论】:

【解决方案2】:

我认为这取决于有多少页面,如果没有太多,您可以创建一个模板并使用所见即所得的编辑器来复制和粘贴内容。

但是,如果您需要以编程方式执行此操作,我建议您解析 html 以提取内容。 或者清理它,如果你可以访问它,你可以使用我用于类似任务的 Expression Web,你可以清理 html,只留下标题标签,段落等,然后你可以应用 css 来格式化它在你想要的设计中。

但是,编写代码执行此操作可能需要比手动执行更长的时间。 有时没有什么比手工更快的了。

祝你好运

【讨论】:

  • 有很多页面。我正在做的一个例子有 38 页。但这只是一个。其中可能有 20-30 个。
【解决方案3】:

虽然这可能听起来有点油嘴滑舌,但我能提供的最佳实际选择是Rent-A-Coder

【讨论】:

  • 好主意,假设信息不是专有的,付给某人 50 美元可能会更快,然后花时间自己做。
  • 当然,如果你想得到一大堆类似的蹩脚 css 页面。
  • 是的,显然提供了雇用某人做通常更适合人类处理而不是机器处理的工作的可能性值得鄙视 :roll:
  • 它是“有用的”,因为它提供了一个合法的选项。人们经常花费更多的时间来尝试提出一种通用的、全面的解决方案,以便将数据从格式 A 一次性转换为格式 B,而这将花费更少的时间(因此,在大多数情况下,花费更少的钱)只是为了您可以自己手动执行转换,也可以聘请他人进行转换。这似乎是一项简单的工作,非常适合像 RAC 这样的服务。
【解决方案4】:

取决于页面,您可以尽可能使用 Perl 或任何其他您喜欢的脚本语言编写脚本,并让他们注意任何他们无法修复或不理解的内容。

【讨论】:

    【解决方案5】:

    当面对像这样经常生成的旧代码时,我倾向于在我的文本编辑器中进行搜索和替换。

    听起来很糟糕,不是吗?

    说真的,如果你有一个功能强大的编辑器,它支持搜索多个文件和/或正则表达式,那可以删除大部分讨厌的代码。至少可以说这不是一门完美的科学,可能需要进行一些手动操作才能将其变成“有用”的形式,但它会省去大部分清理工作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2013-04-29
      • 2015-09-23
      • 1970-01-01
      • 2014-07-17
      • 2018-08-20
      • 1970-01-01
      • 2018-06-23
      相关资源
      最近更新 更多