【发布时间】:2016-10-21 15:18:40
【问题描述】:
我正在尝试从http://www.emoryhealthcare.org/locations/offices/advanced-digestive-care-1.html 抓取信息。
我想抓取出现在页面下三分之一处的专科,即“消化内科”和“内科”。当我检查该元素时,我看到它是 <div class="module bordered specialist"> 的 li 但是当我尝试循环遍历汤并打印每个找到的项目时,返回的结果与预期的不同。
<div class="module bordered specialist">
<ul>
<li>Cardiac Care</li>
<li>Transplantation</li>
<li>Cancer Care (Oncology)</li>
<li>Diagnostic Radiology</li>
<li>Neurosciences</li>
<li>Mental Health Services</li>
</ul>
</div>
当我在浏览器中打开网站时,我看到上面的值在内容切换到预期结果之前闪烁。有没有办法让我提高我能够刮掉我打算刮掉的物品的可能性?
【问题讨论】:
-
听起来页面有 javascript 可以在加载后更改内容。
-
您可以使用
selenium并等待几秒钟(这似乎需要多长时间才能更改)
标签: python web-scraping beautifulsoup