【发布时间】:2010-04-24 19:28:47
【问题描述】:
我正在做一些网络数据分类任务,并且正在考虑是否可以在不考虑任何 css 或 javascript 的情况下获得 html 元素的坐标,因为它们会出现在网络浏览器上网页中提到。
我的编程语言是 c++,需要几百万页的结果,所以它必须要快。我知道有一个 Microsoft COM 组件可以在 Web 浏览器控件中呈现页面,然后可以查询不同 html 标记的位置。但这不适用于我的情况,因为它首先呈现整个页面,这会占用大量时间。
所以我发现,有开源布局引擎 WebKit、Gecko 可能可以用于此。但这是一段巨大的代码,我需要有人将我引导到正确的类或正确的模块以查看或任何以前/以前做过的类似工作。另外,如果我想自定义现有代码以用于多线程以使其更快,请告诉我你们认为什么是不错的选择。
谢谢
【问题讨论】:
-
你有没有HTML本身没有指定布局细节的问题(即这一切都取决于布局引擎的默认值)?
-
也许我忘了说,元素之间的相对位置在我的例子中更为重要,如果你注意到,大多数浏览器以几乎相似的方式呈现网页。所以使用哪个渲染引擎并不重要,重要的是我得到它渲染的元素的位置坐标。