【发布时间】:2021-05-31 21:59:54
【问题描述】:
我正在尝试检索某个属性下的 url。我目前的代码是
import urllib
import lxml.html
url = 'https://play.acast.com/s/jeg-kan-ingenting-om-vin/33.hvorforercheninblancfraloireogsor-afrikaikkelengerpafolksradar-'
connection = urllib.urlopen(url)
dom = lxml.html.fromstring(connection.read())
links = []
for link in dom.xpath('//meta/@content'): # select the url in href for all a tags(links)
if 'mp3' in link:
links.append(link)
output = set(links)
for i in output:
print(i)
这会输出 2 个链接,这不是我想要的。
https://sphinx.acast.com/jeg-kan-ingenting-om-vin/33.hvorforercheninblancfraloireogsor-afrikaikkelengerpafolksradar-/media.mp3
https://sphinx.acast.com/jeg-kan-ingenting-om-vin/33.hvorforercheninblancfraloireogsor-afrikaikkelengerpafolksradar-r/media.mp3
我想做的是“仅”获取og:audio 属性下的 URL 链接。不是og:audio:secure_url 属性。
我该如何做到这一点?
【问题讨论】:
标签: python python-3.x beautifulsoup