【发布时间】:2019-08-22 01:32:01
【问题描述】:
我试图从页面源代码中获取一些信息。
例如,让我们以这个亚马逊产品为例。
我们可以查看源代码
我的目标是获取一些数据,例如产品描述(例如 1366x768 LED 显示屏)
我基本上是获取整个源代码,然后使用正则表达式来获取我需要的数据。
我正在做这样的事情:
import requests
source = requests.get(someUrl)
data = re.findall(r'<span class=\"a-list-item\">(.*?)<\/span><\/li>', source.content)
这应该给我每个产品描述,但我不断收到TypeError: cannot use a string pattern on a bytes-like object
我不知道是我的正则表达式错误还是source.content 没有给我源代码
【问题讨论】:
-
Regex 通常不是解析 HTML 的正确工具。阅读 Python 的 Beautiful Soup 库以获得更好的选择。
-
我想明确说明您想要从页面中获得什么信息,而不是一般的“每个产品描述”......例如,您是否希望底部有整个比较表?
标签: regex python-3.x web-scraping