【发布时间】:2020-11-26 18:11:36
【问题描述】:
我观看了一个视频,该视频教如何使用 BeautifulSoup 并请求抓取网站 这是代码
from bs4 import BeautifulSoup as bs4
import requests
import pandas as pd
pages_to_scrape = 1
for i in range(1,pages_to_scrape+1):
url = ('http://books.toscrape.com/catalogue/page-{}.html').format(i)
pages.append(url)
for item in pages:
page = requests.get(item)
soup = bs4(page.text, 'html.parser')
#print(soup.prettify())
for j in soup.findAll('p', class_='price_color'):
price=j.getText()
print(price)
我运行良好的代码。但至于结果,我注意到欧元符号之前有奇怪的字符,并且在检查 html 源代码时,我没有找到那个字符。任何想法为什么会出现这个角色?以及如何解决这个问题.. 是使用足够的替换还是有更好的方法?
【问题讨论】:
-
听起来您不了解字符集,并且正在查看启用了一些旧字符集的 UTF-8,例如 Windows 代码页 1251。
标签: python beautifulsoup python-requests