【发布时间】:2016-01-13 10:00:03
【问题描述】:
我有一个这样的html:
<ul class='Whs-nw M-0 items'>
<li>
<a href='/news/stocks-hold-slight-gains-amid-140642829.html' class='D-b Fz-s Fw-400' data-ylk='rspns:nav;t3:sub0;elm:hdln;elmt:ct;itc:0;pkgt:15;g:e3b49674-fd8a-3acb-9395-4ac0811af672;ct:1;cpos:2;'>
<div class='P-0 Whs-n'>
<div class='M-0 Pt-2 Ov-h'>
<p class='M-0 D-i'>Dow closes down more than 150 as Wal-Mart, Boeing weigh</p>
</div>
</div>
</a>
</li>
...
</ul>
我正在尝试使用Beautifulsoup 来提取/news/stocks-hold-slight-gains-amid-140642829.html,我正在这样做:
soup = BeautifulSoup(html)
tmp= soup.find_all('ul', attrs={'class' : 'Whs-nw M-0 items'})
但是tmp 在我看的时候是空的。
我做错了吗?
作为参考,我要抓取的页面是 HERE。
【问题讨论】:
-
你使用什么库来获取内容请求,selenium httplib 等?
标签: python python-2.7 beautifulsoup findall