【发布时间】:2018-08-01 18:10:28
【问题描述】:
我有多个包含 HTML 代码的 .txt 文件(来自网页的 HTML 代码被复制并保存为 .txt)。
我想将这些文件解析为 HTML。是否有任何库具有与 requests+bs4 捆绑包类似的功能,并且可以将来自文本文件的输入视为通常的 Web 解析的结果?
感谢您的帮助。
【问题讨论】:
-
你想用 html 做什么?
-
为什么你不能使用BS4?
-
文件扩展名无关。当您将文件从 .txt 重命名为 .html 时,不会发生任何奇迹。只需打开文件(指定
encoding并调用open()!),读取其内容,解析为 HTML - 例如使用 beautifulsoup、lxml 或 pyquery。 -
我如何将包含 HTML 代码的 .txt 文件提供给 BeautidulSoup()?
标签: python html parsing text-parsing