【发布时间】:2016-03-14 00:56:45
【问题描述】:
嗨,我对 python 很陌生,我的老板让我抓取这些数据,但这不是我的强项,所以我想知道我将如何去做。
我所关注的文本每隔几分钟也会在引号中更改一次,所以我也不知道如何找到它。
我目前正在使用美汤和 Lxml,但是如果有更好的选择,我很乐意尝试
这是被检查的网页元素:
div class = "sometext"
<h3> somemoretext </h3>
<p>
<span class = "title" title="text i want">text i want</span>
<br>
</p>
我尝试过使用:
from lxml import html
import requests
from bs4 import BeautifulSoup
page = requests.get('the url')
soup = BeautifulSoup(page.text)
r = soup.findAll('//span[@class="title"]/text()')
print r
提前感谢您,任何帮助将不胜感激!
【问题讨论】:
-
你有什么问题?
-
你的预期输出是什么?
-
对不起,我忘了提到我的输出似乎只是 [],因为没有文本,但是我想得到“我想要的文本”。干杯
-
既然你说文字每隔几分钟就会改变一次,很可能是由一些JS脚本填充的。您可能需要检查您的浏览器网络检查器,因为您可能会找到该文本的专用 url。
-
@jonasmalacofilho 我将如何寻找专用网址以及如何打印?
标签: python web-scraping beautifulsoup lxml