【发布时间】:2020-11-20 23:17:02
【问题描述】:
我是python的新手,所以如果这似乎是一个简单的问题,请原谅我。下面的代码成功抓取了一个网页。有没有办法从该文本中提取地址、电子邮件 ID 和联系电话并将其放入数据框中。我已经搜索了两种方法:-
- REGEX - 但它可能不起作用,因为我有很多网站要抓取,而且 地址的结构可能并不总是规则的。
- Pyap - 它仅适用于美国和加拿大地址。
除了上述两种方法之外,还有其他方法可以获取所需的详细信息吗:-
import requests
from bs4 import BeautifulSoup
link = input("ENTER WEBPAGE") # for example, i am using this webpage as of now "[https://glg.it/contact-us/][1] "
response = requests.get(url)
details = response.text
scraped_details = BeautifulSoup(details, "html.parser")
pretty1 = scraped_details.prettify()
print(pretty1)
感谢您的帮助!!
【问题讨论】:
标签: python-3.x web-scraping bots