【发布时间】:2016-06-03 23:40:39
【问题描述】:
我说的网站:http://www.animenewsnetwork.com/encyclopedia/anime.php?id=160
您不能通过正常请求取消此站点,它不允许这样做。因此,我使用硒。现在,我的问题:
我一直在尝试从“GENRE”字段中获取 TEXT。如您所见,在页面上显示如下:
Genres: adventure, comedy, science fiction
抓取的问题是这些链接附加了链接,当我抓取数据时,我不能只抓取文本。它还向我显示了与这些类型相关的课程和链接。
我现在的代码:
driver.get('http://www.animenewsnetwork.com/encyclopedia/anime.php?id=160')
elem = driver.find_element_by_xpath("//*")
source_codeANN = elem.get_attribute("outerHTML")
soup2 = BeautifulSoup(source_codeANN, 'html.parser')
Genre = soup2.find_all('div',{'id':'infotype-30'})
print Genre
【问题讨论】:
标签: python python-2.7 selenium web-scraping beautifulsoup