【问题标题】:BeautifulSoup for Mandarin美丽的普通话汤
【发布时间】:2016-08-16 09:33:09
【问题描述】:

我正在尝试使用 BeautifulSoup 抓取中文网站。不幸的是,当我这样做时,BeautifulSoup 会找到 html、head 和 body 标签,但在开始和结束 body 标签之间的所有内容都是乱码。我尝试过使用多个解析器,据我所知,只有 html5lib 能够找到所有页面,因为它返回的结果是迄今为止最长的。所以我认为我使用了正确的解析器,但编码是错误的。该网站将“gb2312”列为其编码,但使用该编码,它仍然是乱码。我还尝试了 chardet 来确定返回“windows-1252”的编码,但它似乎也不正确。事实上,我已经经历了许多标准的汉字编码(找到here),但它们都没有返回任何连贯的东西,尽管有些只有一两个汉字。我还为每种可能的 python 编码创建了一个输出文件,但看起来它们都不正确。

除了使用不同的编码之外,我不确定还能尝试什么。任何帮助将不胜感激,谢谢!

【问题讨论】:

  • 如果提供输出查看会有所帮助,请告诉我,我会弄清楚如何提供它。再次感谢!

标签: python encoding web-scraping


【解决方案1】:

没关系!我想这是一个编码问题,但主要是请求库比 urllib 好得多!对此感到抱歉。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-01-15
    • 1970-01-01
    • 1970-01-01
    • 2023-03-12
    • 1970-01-01
    • 2010-10-27
    • 2020-12-13
    相关资源
    最近更新 更多