【发布时间】:2018-02-12 22:04:14
【问题描述】:
我的问题更多是在“概念”方面,因为我还没有任何代码可以显示。我基本上可以访问网站的 API Explorer,但是当我在 API Explorer 中放置特定 url 时检索到的信息与我打开具有相同 url 的网页时获得的 html 信息不同,并且“检查”元素。老实说,我不知道如何检索我需要的数据,因为它们只存在于 API Explorer 中,但无法通过网络抓取访问。
这里有一个例子来说明我的意思:
API Explorer 链接:https://platform.worldcat.org/api-explorer/apis/worldcatidentities/identity/Read,
具体请求的url是:http://www.worldcat.org/identities/lccn-n80126307/
如果我自己输入 url (http://www.worldcat.org/identities/lccn-n80126307/) 和“检查元素”,这条信息:
没有与以下所有相同的数据:
例如,语言计数、audLevel、oclcnum 和许多其他在 html 版本中不存在,但在 API Explorer 和其他作者中,流派计数仅存在于 API Explorer 中。
我意识到一个在 xml 中,另一个在 html 中,所以为什么两个版本中的数据不一样?不管是什么原因,我能做些什么来检索仅存在于 API Explorer 中的数据? (如流派数、audLevel、oclcnum等)
任何见解都会非常有帮助。
【问题讨论】:
标签: python html xml api web-scraping