与网站交互并使用 python 获取数据

【问题标题】：Interacting with a website and getting data using python与网站交互并使用 python 获取数据
【发布时间】：2020-01-31 02:40:35
【问题描述】：

我正在尝试与website 互动。对于我的数据分析项目，我有一个包含 100 万个网站的列表，我想找到每个网站的类别。这就是我使用该网站的原因。

现在，我想自动化输入 100 万个网站并获取其类别的过程。我想为此使用python。任何人都可以建议我如何做到这一点吗？

【问题讨论】：

您正在寻找的内容称为“网络抓取”。对于 Stack Overflow，这个主题过于笼统、范围广泛、特定于上下文且基于观点。有关使用 Python 和 Beautiful Soup 进行抓取的介绍，请参阅这篇文章：realpython.com/beautiful-soup-web-scraper-python
@leepowers 可以。感谢您的链接

标签： python-3.x

【解决方案1】：

你可以使用BeautifulSoup，即：

import requests, traceback
from bs4 import BeautifulSoup

domains = ["duckduckgo.com", "opensource.com"]
for dom in domains:
    try:
        req = requests.get(f"https://fortiguard.com/webfilter?q={dom}&version=8")
        if req.status_code == 200:
            soup = BeautifulSoup(req.text, 'html.parser')
            cat = soup.find("meta",  property="description")["content"].split(":")[1].strip()
            print(dom, cat)
    except:
        pass
        print(traceback.format_exc())

输出：

duckduckgo.com Search Engines and Portals
opensource.com Information Technology

Demo

【讨论】：

How to Answer 强烈建议只回答问得很好的问题。
谢谢佩德罗。现在，我对如何处理这个问题有了一个想法。感谢您的帮助。