【发布时间】:2016-04-08 06:33:45
【问题描述】:
所以我正在尝试构建一个动态网络爬虫来获取链接中的所有 url 链接。 到目前为止,我能够获取章节的所有链接,但是当我尝试从每个章节中创建章节链接时,我的输出不会打印出任何内容。
我使用的代码:
#########################Chapters#######################
import requests
from bs4 import BeautifulSoup, SoupStrainer
import re
base_url = "http://law.justia.com/codes/alabama/2015/title-{title:01d}/"
for title in range (1,4):
url = base_url.format(title=title)
r = requests.get(url)
for link in BeautifulSoup((r.content),"html.parser",parse_only=SoupStrainer('a')):
if link.has_attr('href'):
if 'chapt' in link['href']:
href = "http://law.justia.com" + link['href']
leveltwo(href)
#########################Sections#######################
def leveltwo(item_url):
r = requests.get(item_url)
soup = BeautifulSoup((r.content),"html.parser")
section = soup.find('div', {'class': 'primary-content' })
for sublinks in section.find_all('a'):
sectionlinks = sublinks.get('href')
print (sectionlinks)
【问题讨论】:
标签: python-2.7 web-scraping beautifulsoup web-crawler