【问题标题】:Suitable Python modules for navigating a website适合浏览网站的 Python 模块
【发布时间】:2020-09-11 07:48:26
【问题描述】:

我正在寻找一个 python 模块,它可以让我浏览网站的搜索栏、链接等。 对于上下文,我希望对该网站进行一些网络抓取 [https://www.realclearpolitics.com/] 我只是想获取与 2020 年选举相关的每个州的信息(民意调查数据等),并将其全部组织到一个数据库集合中。 显然有很多状态要经过,每个状态都在一个单独的网页上。因此,我正在寻找一种 Python 方法,在该方法中我可以快速浏览网站并获取每个页面的数据等,以及更新和添加到现有数据。因此,找到一种使用我输入的数据快速导航链接和搜索栏的方法将非常有帮助。 任何建议将不胜感激。

# a simple list that contains the names of each state
states = ["Alabama", "Alaska" ,"Arizona", "....."] 
for state in states:
    #code to look up the state in the searchbar of website
    #figures being taken from website etc
    break

这是我的粗略想法

【问题讨论】:

标签: python html python-3.x web-scraping navigation


【解决方案1】:

有许多选项可以使用 Python 完成此任务。正如@LD 提到的,您可以使用Selenium。如果您需要通过无头浏览器与网站 UI 交互,Selenium 是一个不错的选择。例如单击按钮,在搜索栏中输入文本等。如果您的需求不是那么复杂,例如,如果您只需要快速从网页中抓取所有原始内容并进行处理,那么您应该使用请求来自 Python 标准库的模块。

为了处理抓取的原始内容,我推荐beautiful soup

希望有帮助!

【讨论】:

    猜你喜欢
    • 2014-07-16
    • 2011-10-15
    • 2021-12-19
    • 1970-01-01
    • 2014-08-25
    • 2021-03-31
    • 2012-06-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多