【发布时间】:2017-06-28 09:47:42
【问题描述】:
1、发布主页 2、输入第一个内容 3、在子页面获取下一个内容
我找到了隐藏的文章属性。但我无法获得实际值。 我试图找到所有东西都得到输入值,但它不起作用。 Similar question:
import bs4,requests,os
url = 'http://www.qiushibaike.com'
#request the main page
res = requests.get(url)
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text,"html.parser")
qsMain = soup.select('a[class="contentHerf"]')[0]
print(qsMain)
url = 'http://www.qiushibaike.com' + qsMain.get('href')
#enter the first content
res = requests.get(url)
res.raise_for_status()
print(url)
subLink = bs4.BeautifulSoup(res.text,"html.parser")
#get Children page
s = subLink.select('input')[0].get('value')
print(s)
s1 = subLink.find("div", {"class":"article block untagged noline mb15"})
print(s1)
【问题讨论】:
标签: python beautifulsoup web-crawler