【发布时间】:2018-06-21 21:45:38
【问题描述】:
我想编写一个函数,它将archive.is(或archive.fo、archive.li 或archive.today)链接作为输入,并将原始站点的URL 作为输出。
例如,如果输入是'http://archive.is/9mIro',那么我希望输出是'http://www.dailytelegraph.com.au/news/nsw/australian-army-bans-male-recruits-to-get-female-numbers-up/news-story/69ee9dc1d4f8836e9cca7ca2e3e5680a'。
如何在 python 中做到这一点?
【问题讨论】:
-
在做了一些研究之后,我打算采用的方法(除非有人有更好的主意)是使用 BeautifulSoup 来获取存档头部的
<link rel="bookmark" href="...">的href字段页面,然后使用正则表达式从中获取原始网址。
标签: python web-services url short-url