【发布时间】:2015-11-09 20:37:17
【问题描述】:
我目前正在尝试编写一个刮板,它将使用 node.js 从 facebook 帖子中的 div 中获取所有“p”标签
页面上的每个帖子都位于所有具有此类的 div 中:.text_exposed_root
有时每个帖子中都有多个“p”标签,因此理想情况下,如果可能,我需要获取该 div 中的所有 html 文本。我正在使用cheerio 和请求模块,到目前为止我的代码如下:
request(BTTS, function(error, response, body){
if (!error){
var $ = cheerio.load(body),
post = $(".text_exposed_root p").text();
console.log(post);
} else {
console.log("We’ve encountered an error: " + error);
}
})
我尝试过使用 .text .value 和 .html 但它们都只返回一个空白响应。我猜我可能需要抓取该 div 中的所有“p”标签并将其转换为字符串?
提前致谢。
已编辑:
var url = ('https://www.facebook.com/BothTeamsToScore');
request({url:url, headers: headers}, function(error, response, body){
if (!error){
var strippedBody = body.replace(/<!--[\s\S]*?-->/g, "")
console.log(strippedBody);
var $ = cheerio.load(strippedBody),
post = $(".text_exposed_root p").text();
console.log(post);
} else {
console.log("We’ve encountered an error: " + error);
}
})
【问题讨论】: