【发布时间】:2018-05-21 03:43:20
【问题描述】:
所以,我知道这听起来有点奇怪,但基本上这是我的 HTML 示例:
$400 + free shipping</title>
<link>https://www.dealnews.com/Samsung-50-4-K-HDR-LED-Smart-TV-for-400-free-shipping/17336849.html?iref=rss-dealnews-editors-choice</link>
<description><img src='http://c.dlnws.com/image/upload/f_auto,t_large,q_auto/content/vdiy8a75wg8v7bo92dhq'
我只想捕获前面有美元符号的项目的 URL,例如$.... 之后的所有内容都比(URL) 目前我的正则表达式是这样的:
img src='([^']+)'.*
这会抓取每一个 img src,但是我只希望像我之前说的那样在它前面有“$”符号的图像,基本上我不想要任何与此 HTML 页面上的产品无关的图像.
【问题讨论】:
-
您真正要寻找的是结合 xpath 表达式的称为 parser(例如
lxml、Beautifulsoup)。虽然使用正则表达式肯定可以得到有问题的图像 url,但它很容易出错。