【问题标题】:Interacting with a website and getting data using python与网站交互并使用 python 获取数据
【发布时间】:2020-01-31 02:40:35
【问题描述】:

我正在尝试与website 互动。对于我的数据分析项目,我有一个包含 100 万个网站的列表,我想找到每个网站的类别。这就是我使用该网站的原因。

现在,我想自动化输入 100 万个网站并获取其类别的过程。我想为此使用python。任何人都可以建议我如何做到这一点吗?

【问题讨论】:

  • 您正在寻找的内容称为“网络抓取”。对于 Stack Overflow,这个主题过于笼统、范围广泛、特定于上下文且基于观点。有关使用 Python 和 Beautiful Soup 进行抓取的介绍,请参阅这篇文章:realpython.com/beautiful-soup-web-scraper-python
  • @leepowers 可以。感谢您的链接

标签: python-3.x


【解决方案1】:

你可以使用BeautifulSoup,即:

import requests, traceback
from bs4 import BeautifulSoup

domains = ["duckduckgo.com", "opensource.com"]
for dom in domains:
    try:
        req = requests.get(f"https://fortiguard.com/webfilter?q={dom}&version=8")
        if req.status_code == 200:
            soup = BeautifulSoup(req.text, 'html.parser')
            cat = soup.find("meta",  property="description")["content"].split(":")[1].strip()
            print(dom, cat)
    except:
        pass
        print(traceback.format_exc())

输出:

duckduckgo.com Search Engines and Portals
opensource.com Information Technology

Demo

【讨论】:

  • How to Answer 强烈建议只回答问得很好的问题。
  • 谢谢佩德罗。现在,我对如何处理这个问题有了一个想法。感谢您的帮助。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-07-10
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-11-08
相关资源
最近更新 更多