【发布时间】:2018-07-31 16:54:56
【问题描述】:
我是 Puppeteer 的新手,我正在尝试使用 Node.JS 和 Puppeteer 从网站中提取元数据。我似乎无法正确使用语法。下面的代码完美地提取了标题标签,使用两种不同的方法,以及来自段落标签的文本。例如,如何提取名称为“描述”的元数据的内容文本?
meta name="description" content="堆栈溢出最大等"
如果有任何建议,我将不胜感激!我似乎在任何地方都找不到任何这样的例子(5 个小时的搜索和代码破解之后)。我的示例代码:
const puppeteer = require('puppeteer');
async function main() {
const browser = await puppeteer.launch({headless: false});
const page = await browser.newPage();
await page.goto('https://stackoverflow.com/', {waitUntil: 'networkidle2'});
const pageTitle1 = await page.evaluate(() => document.querySelector('title').textContent);
const pageTitle2 = await page.title();
const innerText = await page.evaluate(() => document.querySelector('p').innerText);
console.log(pageTitle1);
console.log(pageTitle2);
console.log(innerText);
};
main();
【问题讨论】:
标签: node.js meta-tags puppeteer