【问题标题】:Crawling data from web page with content rendered by javascript使用 javascript 呈现的内容从网页中抓取数据
【发布时间】:2017-07-05 06:02:45
【问题描述】:

我是爬取数据的新手。我想从这个站点爬取数据:[http://kbbi.web.id/][

我想通过 .csv 文件的输入来爬取数据,并使每个 csv 单行的爬取数据像上图一样工作,并且仅从红色框中获取数据,例如。 mengabadi, mengabadikan, pengabadian, keabadian 并将其保存在新的 .csv 文件中,如下所示:

那么,我可以做些什么来抓取它(也许使用 python)?而且我认为网页使用 javascript 来加载/呈现数据。

【问题讨论】:

    标签: python python-3.x web-crawler


    【解决方案1】:

    使用requestsbs4 示例代码:(自行阅读实现,仅供参考!)

    from bs4 import BeautifulSoup
    
    import requests
    
    url = "http://kbbi.web.id/"
    
    r  = requests.get(url)
    
    data = r.text
    
    soup = BeautifulSoup(data)
    

    现在,使用 inspect 工具挖掘网站,然后.. 代码!!

    可以使用 pip 安装 BeautifulSoup 和 Requests:

    $ pip install requests
    
    $ pip install beautifulsoup4 
    

    【讨论】:

      猜你喜欢
      • 2021-08-10
      • 1970-01-01
      • 2018-01-12
      • 1970-01-01
      • 2019-06-13
      • 1970-01-01
      • 1970-01-01
      • 2013-10-12
      • 1970-01-01
      相关资源
      最近更新 更多