【发布时间】:2022-01-23 04:55:48
【问题描述】:
我正在尝试构建刮板来刮掉此页面中的表格 (https://aws.amazon.com/sagemaker/pricing/) 我只对 training、processing 和其他一些数据感兴趣。
req = requests.get(url)
soup = bs4.BeautifulSoup(req.content)
tables = soup.find_all("table")
inst_table = str(tables[0])
但看起来我必须使用某种动态机制来获取选项卡式开关。
假设我们点击了训练选项卡,我的目标是构建一个存储抓取数据的文件
"ml.t2.medium": {
"vCPU": 2.0,
"mem_GiB": 4.0,
"price": 0.15,
"category": "Standard",
"task": "training",
}
【问题讨论】:
-
您希望在哪一步涉及 Selenium?
-
//li[contains(@class,'lb-tabs-trigger')]//div[contains(text(),'Training')] 适用于单击训练元素。
-
@DebanjanB 基本上我想从主页开始,然后动态执行其余的抓取,不知道该怎么做。我还没有真正做太多的硒。
-
@ArundeepChohan 我需要使用硒吗?你能举个例子吗?
-
@add-semi-colons 我在哪里可以找到这些
ml.t2.medium、"vCPU": 2.0、"category": "Standard"、"task": "training"数据?
标签: python beautifulsoup request