【发布时间】:2010-01-10 10:33:31
【问题描述】:
我正在尝试在 adobe air 中加载和解析 html。主要目的是提取标题、元标记和链接。我一直在尝试 HTMLLoader,但我得到了各种各样的错误,主要是 javascript 未捕获的异常。
我还尝试直接加载 html 内容(使用 URLLoader)并将文本推送到 HTMLLoader(使用 loadString(...)),但得到了同样的错误。最后的办法是尝试将文本加载到 xml 中,然后使用 E4X 查询或 xpath,没有运气,因为 html 格式不正确。
我的问题是:
- 那里有简单可靠的(空中/动作脚本)DOM 组件(我不需要显示页面,无头模式就可以)?
- 是否有任何库可以将(糟糕的)html 转换为格式良好的 xml,以便我可以使用 xpath/E4X
- 有关如何执行此操作的任何其他建议?
谢谢
【问题讨论】:
标签: html actionscript air screen-scraping