【发布时间】:2017-02-20 11:57:25
【问题描述】:
我正在使用 python 从以下网页获取所有可能的 href:
http://www.congresovisible.org/proyectos-de-ley/
这两个例子
href="ppor-medio-de-la-cual-se-dictan-medidas-para-defender-el-acceso-de-los-usuarios-del-sistema-de-salud-a-medicamentos-de-calidad-eficacia-y-seguridad-acceso-de-los-usuarios-del-sistema-de-salud-a-medicamentos/8683">
href="ppor-medio-del-cual-el-congreso-de-la-republica-facultado-por-el-numeral-17-del-articulo-150-de-la-constitucion-politica-de-colombia-y-en-aras-de-facilitar-la-paz-decreta-otorgar-amnistia-e-indulto-a-los-miembros-del-grupo-armado-organizado-al-margen-de-la-ley-farc-ep/8682">
最后有一个列表,其中包含该页面中所有可能的href。
但是,通过单击 ver todos(“查看全部”)可以看到更多的 href。但是,如果您检查源页面,即使您将 /#page=4 或任何页面添加到 url,总 href 保持不变(实际上页面源不会改变)。我怎么能得到所有这些隐藏的href?
【问题讨论】:
-
我的意思是,例如,如果你打开congresovisible.org/proyectos-de-ley/#page=3,你会看到不同的href。但是页面来源与congresovisible.org/proyectos-de-ley完全相同
标签: javascript python web-scraping href