【发布时间】:2020-07-22 10:50:07
【问题描述】:
是否有 api 来检索特定集合(即子集合)的项目?
示例:
集合 movies 的 HTML 可以从 https://archive.org/details/movies 和 JSON/meta 从 https://archive.org/metadata/movies/ 检索。然而,JSON 负载没有引用集合的子项(即“Arts & Music”、“Community videos”等子集合)。
我正在尝试围绕 Internet 归档 API 构建一个包装器。 API 信息非常稀疏[0][1][2] 且不完整。
注意:如果您的声望高于 1500,请创建一个“internet-archive”标签
[0]http://blog.archive.org/2011/03/31/how-archive-org-items-are-structured/ [1]http://blog.archive.org/developers/
【问题讨论】:
-
要获取所有元数据,您必须创建自己的 URL。例如,以下是游戏视频的元数据:archive.org/metadata/gamevideos 和电视档案的元数据:archive.org/metadata/tvarchive
-
@GilbertLeBlanc 我不确定你的意思。看起来你仍然没有得到
gamevideos或tvarchive的孩子(例如 cnn 、福克斯新闻等 archive.org/details/tvarchive ) -
您将不得不创建一个 archive.org/metadata/* URL 列表来获取您感兴趣的所有元数据。
-
你的回答毫无意义。整个问题是如何以编程方式检索子集合(即使用 JSON API)。你的答案是自己创建一个这样的孩子列表......
标签: web-crawler