【发布时间】:2013-06-06 21:17:20
【问题描述】:
从节点,我想从外部网页获取所有图片网址(src 属性来自img 标签)。
我从考虑 phantonjs 开始,但不喜欢它没有真正集成到节点中(即它在外部进程中运行)。
接下来,我尝试使用请求模块和cheerio。这很好用,除了我必须处理相对图像 url。例如
<img src='http//example.com/i.jpg'>
<img src='/i.jpg'>
<img src='i.jpg'>
<img src='../images/i.jpg'>
我可以解决这个问题,但我想知道是否有更简单的方法?
【问题讨论】:
-
我想 request + Cheerio 可能是最简单的方法。你也可以使用 jquery + js-dom 来代替
-
这些从相对到绝对的方法能帮到你吗? stackoverflow.com/questions/7544550/…
-
看起来 node 的 url 模块在这里可以解决问题。
-
简单的事情,你可以试试 Headless 浏览器,用 Nodejs 试试 Puppeteer
标签: node.js