【发布时间】:2020-01-14 09:09:19
【问题描述】:
我已成功提取我的站点地图,我想将网址转换为列表。我不太清楚如何做到这一点,将 https 与修改的日期分开。理想情况下,我还想把它变成一本带有相关日期戳的字典。最后,我打算遍历列表并创建网页的文本文件,并将日期时间戳保存在文本文件的顶部。
我将满足于将其变成列表的下一步。这是我的代码:
import urllib.request
import inscriptis
from inscriptis import get_text
sitemap = "https://grapaes.com/sitemap.xml"
i=0
url = sitemap
html=urllib.request.urlopen(url).read().decode('utf-8')
text=get_text(html)
dicto = {text}
print(dicto)
for i in dicto:
if i.startswith ("https"):
print (i + '/n')
输出基本上是带有日期戳、空格和 url 的一行。
【问题讨论】:
-
请分享输出。
-
我不能在这里真正分享输出,因为它是链接。但它是这样的:grapaes.com2020-01-12T09:19+00:00 grapaes.com/about-us-our-story2020-01-12T12:13+00:00 grapaes.com/events2019-12-05T13:17+00:00 grapaes.com/news 2019-12-19T14:43+00:00 grapaes.com/varieties 2019-12-05T13:31+00:00 grapaes.
-
@Unicorn_tech 您可能应该将该示例输出添加到问题中。
标签: python list dictionary web-crawler sitemap