【问题标题】:How to parse html code saved as text?如何解析保存为文本的html代码?
【发布时间】:2018-08-01 18:10:28
【问题描述】:

我有多个包含 HTML 代码的 .txt 文件(来自网页的 HTML 代码被复制并保存为 .txt)。

我想将这些文件解析为 HTML。是否有任何库具有与 requests+bs4 捆绑包类似的功能,并且可以将来自文本文件的输入视为通常的 Web 解析的结果?

感谢您的帮助。

【问题讨论】:

  • 你想用 html 做什么?
  • 为什么你不能使用BS4?
  • 文件扩展名无关。当您将文件从 .txt 重命名为 .html 时,不会发生任何奇迹。只需打开文件(指定 encoding 并调用 open()!),读取其内容,解析为 HTML - 例如使用 beautifulsoup、lxml 或 pyquery。
  • 我如何将包含 HTML 代码的 .txt 文件提供给 BeautidulSoup()?

标签: python html parsing text-parsing


【解决方案1】:

正如许多 cmets 所说,可以将 .txt 文件提供给 BeautifulSoup():

from bs4 import BeautifulSoup

path = 'path/to/file.txt'
with open(path) as f:
    text = f.read()
BeautifulSoup(text, 'lxml')

【讨论】:

    【解决方案2】:

    您可能正在寻找可以很容易地从 HTML 中解析和读取文本的 Beautiful Soup:

    Beautiful Soup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它与您最喜欢的解析器一起使用,提供导航、搜索和修改解析树的惯用方式。它通常可以为程序员节省数小时或数天的工作时间。

    【讨论】:

    • 我使用 requests 和 bs4 创建了这些文件。
    • 现在我想将 .txt 文件作为输入提供给 BeautifulSoup(),但我不知道该怎么做。我不确定这是否可能马上。
    猜你喜欢
    • 2018-07-12
    • 1970-01-01
    • 1970-01-01
    • 2016-04-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-12
    • 2014-03-02
    相关资源
    最近更新 更多