未知字符“Ø³Ù,ÙˆØ·”被抓取而不是编码utf-8答案

【问题标题】：unknown characters "Ø³Ù‚ÙˆØ·" are scraped instead of encoding utf-8未知字符“Ø³Ù,ÙˆØ·”被抓取而不是编码utf-8
【发布时间】：2021-12-04 13:22:36
【问题描述】：

我正在尝试抓取一个非英语网站 (https://arzdigital.com/)。这是我的蜘蛛代码。问题是虽然一开始我导入“urllib.parse”并在我写的settings.py文件中

FEED_EXPORT_ENCODING='utf-8'

蜘蛛没有正确编码（输出如下：“Ø³Ù,ÙˆØ· Û±Û° Ù‡Ø²Ø§Ø± Ø¯Ù„Ø§Ø±ÛŒ Ø¨ÛŒØª Ú©ÙˆÛŒÙ† Ø¯ Ø± Ø¹Ø±Ø¶ ÛŒÚ© Ø³Ø§Ø¹ØªØ› Ø¹Ù„Øª Ú†Ù‡ Ø¨ÙˆØ¯ØŸ")。即使使用 .encode() 函数也不起作用。

所以，这是我的蜘蛛代码：

# -*- coding: utf-8 -*-
import scrapy
import logging
import urllib.parse
parts = urllib.parse.urlsplit(u'http://fa.wikipedia.org/wiki/صفحهٔ_اصلی')
parts = parts._replace(path=urllib.parse.quote(parts.path.encode('utf8')))
encoded_url = parts.geturl().encode('ascii')
'https://fa.wikipedia.org/wiki/%D8%B5%D9%81%D8%AD%D9%87%D9%94_%D8%A7%D8%B5%D9%84%DB%8C'


class CriptolernSpider(scrapy.Spider):
    name = 'criptolern'
    allowed_domains = ['arzdigital.com']


    start_urls=[f'https://arzdigital.com/latest-posts/page/{i}/'.format(i) for i in enter code hererange(1,353)]

    def parse(self, response):
        posts=response.xpath("//a[@class='arz-last-post arz-row']")
        
        try:

            for post in posts:
                post_title=post.xpath(".//@title").get()
                yield{
                    'post_title':post_title
                }
        except AttributeError:
            logging.error("The element didn't exist")

谁能告诉我问题出在哪里？非常感谢！

【问题讨论】：

标签： web-scraping scrapy web-crawler

【解决方案1】：

在响应头中有一个字符集，否则默认为Windows-1252。如果您找到一个字符集 ISO-8859-1 将其替换为 Windows-1252。

现在您有了正确的编码来读取它。

最好以全 Unicode 格式存储，UTF-8，因此每个脚本都是可能的。

您可能正在使用控制台查看输出（在 Windows 上很可能不是 UTF-8），然后您会看到多字节序列作为两个奇怪的字符。将其存储在一个文件中，并使用 Notepad++ 或类似的工具对其进行编辑，您可以在其中可以看到编码并更改它。现在甚至 Windows 记事本有时也能识别 UTF-8。

【讨论】：