【发布时间】:2015-09-05 22:14:53
【问题描述】:
我有以下网址'http://www.alriyadh.com/file/278?&page=1' 我想编写一个正则表达式来访问从 page=2 到 page=12 的 url
例如,这个url需要'http://www.alriyadh.com/file/278?&page=4',而不是page = 14
我认为可行的是迭代指定的 10 个页面以访问其中的所有 url 的函数。我试过这个正则表达式但不起作用 '.*?=[2-9]'
我的目标是使用报纸包从这些网址中获取内容。我只是想要这些数据用于我的研究
提前致谢
【问题讨论】:
-
当您说
.*?=[2-9]不起作用时,您是什么意思?它与任何 URL 都不匹配吗? -
带范围的for循环不酷吗?为什么是正则表达式,我不明白。
-
您是否有理由尝试编写正则表达式来生成页码,而不是使用 BeautifulSoup 将 URL 从页面上拉到第 12 页?我希望您实际上并没有使用正则表达式进行 XHTML 解析,since that's generally the wrong approach
-
我正在尝试简单的事情,所以从第 2 页到第 12 页的 loof 会得到我想要的一切。还有其他方法吗?
-
我尝试过 BeautifulSoup,它非常适合从一个 url 获取内容。我正在尝试从此页面获取所有 url,然后在下一步中将它们废弃。这有意义吗?
标签: python regex python-2.7 beautifulsoup python-requests