【发布时间】:2021-04-09 12:22:41
【问题描述】:
我是 Yasa James,14 岁,是网络抓取的新手。 我正在尝试从此website 中提取标题和链接。 作为一个所谓的“Utako”和一个想成为程序员的人,我想创建一个同时提取链接和标题的程序。我目前正在使用 lxml,因为我无法下载 selenium,互联网有限,互联网非常慢,因为我来自菲律宾的一个省份,我认为它比我使用过的其他模块更快。
这是我的代码:
from lxml import html
import requests
url = 'https://animixplay.to/dr.%20stone'
page = requests.get(url)
doc = html.fromstring(page.content)
anime = doc.xpath('//*[@id="result1"]/ul/li[1]/p[1]/a/text()')
print(anime)
我注意到的一件事是,我想从任何 div 中获取元素的值,它是否会给出一个空列表作为输出。
希望各位前辈能帮帮我。谢谢!
更新:
我用requests-html 解决了我的问题,现在它可以工作了,谢谢!
【问题讨论】:
-
欢迎来到 SO。你到底想从这个程序中输出什么?
-
动漫标题和li标签内的href
标签: python xpath lxml screen-scraping