【问题标题】:parse html in adobe air在 adobe air 中解析 html
【发布时间】:2010-01-10 10:33:31
【问题描述】:

我正在尝试在 adobe air 中加载和解析 html。主要目的是提取标题、元标记和链接。我一直在尝试 HTMLLoader,但我得到了各种各样的错误,主要是 javascript 未捕获的异常。

我还尝试直接加载 html 内容(使用 URLLoader)并将文本推送到 HTMLLoader(使用 loadString(...)),但得到了同样的错误。最后的办法是尝试将文本加载到 xml 中,然后使用 E4X 查询或 xpath,没有运气,因为 html 格式不正确。

我的问题是:

  1. 那里有简单可靠的(空中/动作脚本)DOM 组件(我不需要显示页面,无头模式就可以)?
  2. 是否有任何库可以将(糟糕的)html 转换为格式良好的 xml,以便我可以使用 xpath/E4X
  3. 有关如何执行此操作的任何其他建议?

谢谢

【问题讨论】:

    标签: html actionscript air screen-scraping


    【解决方案1】:

    ActionScript 应该是 JavaScript 的超集,幸运的是,有...

    Pure JavaScript/ActionScript HTML Parser

    由 Javascript 大师和 jQuery 创建者 John Resig 创建 :-)

    一种方法是通过 HTMLtoXML() 运行 HTML,然后随意使用 E4X :)

    【讨论】:

      【解决方案2】:

      阿法克:

      1. 否 :-(
      2. 否 :-(
      3. 我认为获取标题和元标记的最简单方法是编写一些正则表达式。您可以将页面的 HTML 代码加载到字符串中,然后像这样读出您需要的任何内容:

      var str:String = ""; // 这里放 HTML 代码

      var pattern:RegExp = /<title>(.+)<\/title>/i;
      
      trace(pattern.exec(str));
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2013-01-14
        • 2014-02-22
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-05-26
        相关资源
        最近更新 更多