【发布时间】:2013-11-27 22:28:30
【问题描述】:
我知道之前有人问过这个问题,但我找不到 node.js 的好答案
我需要服务器端从获取的 HTML 页面中提取纯文本(无标签、脚本等)。
我知道如何在客户端使用 jQuery(获取 body 标记的 .text() 内容),但不知道如何在服务器端执行此操作。
我试过https://npmjs.org/package/html-to-text,但这不能处理脚本。
var htmlToText = require('html-to-text');
var request = require('request');
request.get(url, function (error, result) {
var text = htmlToText.fromString(result.body, {
wordwrap: 130
});
});
我尝试了 phantom.js,但找不到获取纯文本的方法。
【问题讨论】:
标签: javascript node.js screen-scraping