【发布时间】:2012-12-17 23:38:14
【问题描述】:
我想提取维基百科上“Google”页面的所有完整图片网址
我试过了:
http://en.wikipedia.org/w/api.php?action=query&titles=Google&generator=images&gimlimit=10&prop=imageinfo&iiprop=url|dimensions|mime&format=json
但是,通过这种方式,我也得到了与谷歌无关的图像,例如:
http://upload.wikimedia.org/wikipedia/en/a/a4/Flag_of_the_United_States.svg
http://upload.wikimedia.org/wikipedia/en/4/4a/Commons-logo.svg
http://upload.wikimedia.org/wikipedia/en/4/4a/Commons-logo.svg
http://upload.wikimedia.org/wikipedia/commons/f/fe/Crystal_Clear_app_browser.png
如何仅提取我在 Google page 上看到的图像
【问题讨论】:
-
但是那些图片在那个关于谷歌的页面上,你没看到吗?
-
好的,我的意思是只有那些在方框中环绕文本的图像
-
为此,我认为您必须解析页面的源代码。
-
应该是家常便饭。我想知道为什么 Wikipedia API 不提供它。这是维基百科,加油!
-
@user1028100:“这应该是很平常的事情。(……)”——不,不应该。对于读者来说,这些图片显然是不同的东西。但这种差异来自人们使用 MediaWiki 软件的方式,而不是该软件如何处理这些图片。这就是为什么 API 无法分辨哪些是与文章相关的图片,哪些只是装饰性图标。
标签: mediawiki wikipedia wikipedia-api wikimedia-commons