如何解析保存为文本的html代码？答案

【问题标题】：How to parse html code saved as text?如何解析保存为文本的html代码？
【发布时间】：2018-08-01 18:10:28
【问题描述】：

我有多个包含 HTML 代码的 .txt 文件（来自网页的 HTML 代码被复制并保存为 .txt）。

我想将这些文件解析为 HTML。是否有任何库具有与 requests+bs4 捆绑包类似的功能，并且可以将来自文本文件的输入视为通常的 Web 解析的结果？

感谢您的帮助。

【问题讨论】：

你想用 html 做什么？
为什么你不能使用BS4？
文件扩展名无关。当您将文件从 .txt 重命名为 .html 时，不会发生任何奇迹。只需打开文件（指定 encoding 并调用 open()！），读取其内容，解析为 HTML - 例如使用 beautifulsoup、lxml 或 pyquery。
我如何将包含 HTML 代码的 .txt 文件提供给 BeautidulSoup()？

【解决方案1】：

正如许多 cmets 所说，可以将 .txt 文件提供给 BeautifulSoup()：

from bs4 import BeautifulSoup

path = 'path/to/file.txt'
with open(path) as f:
    text = f.read()
BeautifulSoup(text, 'lxml')

【讨论】：

【解决方案2】：

您可能正在寻找可以很容易地从 HTML 中解析和读取文本的 Beautiful Soup：

Beautiful Soup 是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。它与您最喜欢的解析器一起使用，提供导航、搜索和修改解析树的惯用方式。它通常可以为程序员节省数小时或数天的工作时间。

【讨论】：