【发布时间】:2019-09-16 15:51:43
【问题描述】:
我有一个大约 5000 个链接的列表。 Ex 2 in 5000 链接:
https://racevietnam.com/runner/buiducninh/ecopark-marathon-2019
https://racevietnam.com/runner/drtungnguyen83/ecopark-marathon-2019
...
我想获取 Time of Day 列和 Finish 行的链接值。
例如:
09:51:07 AM - https://racevietnam.com/runner/buiducninh/ecopark-marathon-2019
07:50:55 AM - https://racevietnam.com/runner/ngocsondknb/ecopark-marathon-2019
我得到了一个网站的用户信息,该网站有 id、class。但是https://racevietnam.com/runner/ngocsondknb/ecopark-marathon-2019 中的表没有id,表中的类。所以我不能。
#!/usr/bin/python
from urllib.request import urlopen
from bs4 import BeautifulSoup
list_user = []
for userID in range(1, 100000):
link = "https://example.com/member.php?u=" + str(userID)
html = urlopen(link)
bsObj = BeautifulSoup(html, "lxml")
user_name = bsObj.find("div", {"id":"main_userinfo"}).h1.get_text()
list_user.append(user_name)
print("username", userID, "is: ", user_name)
with open("result.txt", "a") as myfile:
myfile.write(user_name)
请帮帮我。
谢谢。
【问题讨论】:
标签: arraylist web-scraping html-table hyperlink cell