【发布时间】:2013-07-04 14:13:26
【问题描述】:
我必须从网站的 HTML 表中获取信息。我想从 Node.ja 服务器向该网站发出 HTML 请求并解析 HTML 表。除了正则表达式之外,还有什么库或JS技术可以解析表格单元格中的数据吗?
对不起,我是编程新手。
【问题讨论】:
标签: javascript html node.js html-parsing
我必须从网站的 HTML 表中获取信息。我想从 Node.ja 服务器向该网站发出 HTML 请求并解析 HTML 表。除了正则表达式之外,还有什么库或JS技术可以解析表格单元格中的数据吗?
对不起,我是编程新手。
【问题讨论】:
标签: javascript html node.js html-parsing
我会使用 JQuery。您可以像这样遍历所有表格数据:(这将提醒每个表格数据中的 html)
$('td').each( function () { alert( $(this).html() } );
或针对特定表:
$('#specific_table_id.td').each( function () { alert( $(this).html() } );
【讨论】:
var doc = document.implementation.createDocument(null, your_downloaded_html_page_as_string, null);
您可以使用普通的 DOM 函数,例如 getElementByTagName,firstChild,..etc 从您下载的 HTML 页面中获取实际数据。
更多方法请参考Parse a HTML String with JS。
【讨论】:
【讨论】:
jsdom 是一个很棒的模块
// Count all of the links from the Node.js build page
var jsdom = require("jsdom");
jsdom.env(
"http://nodejs.org/dist/",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
console.log("there have been", window.$("a").length, "nodejs releases!");
}
);
【讨论】: