文件中的混淆字符答案

【问题标题】：Confusing characters in a file文件中的混淆字符
【发布时间】：2015-01-07 15:15:10
【问题描述】：

我正在尝试读取 THIS 文件，其中包含一些奇怪的字符。在记事本++中打开文件会导致它们被“子”字符替换

文件内容为：

>>> open('test.txt', 'rb').read()
b'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'

我正在使用带有简单代码的 Python

with open('test.txt') as f:
    for line in f:
        print line

这会导致程序完全忽略第一个子字符之后的所有内容。它根本不会打印出第三行和任何其他行。

我现在的问题有两个：

文件中的未知字符到底是什么？
用这些奇怪的字符读取文件的最佳方法是什么？

编辑：

据我了解，问题来自字符\x1a，根据this question，即“文件结尾字符”。这就解释了python在遇到文件时只是停止读取文件的事实，这意味着我现在的问题是：

如何使用 Python 读取中间包含转义字符 U+001A 的文件，而 Python 不会将其解释为文件结尾？

【问题讨论】：

请将文件数据放在这里。可以使用print repr(f.read()[:100]) 提供样本。即便如此，guess-the-codec 也不是适合 Stack Overflow 帖子的游戏。而且我肯定不会下载外部托管的随机文件，网站要求我在访问之前输入电子邮件地址。
这个文件是不是碰巧从windows环境转到linux环境的？
@MartijnPieters f.read() 在未知字符后停止读取文件。我无法以任何可读的方式复制该文件。
@MartijnPieters 我在这里使用了meta.stackexchange.com/questions/4637/… 建议的文件上传网站之一。如果您对我如何传达文件有更好的建议，请告诉我...
@user2097159 不，文件已制作并在 Windows 中读取。据我所知，它是一个 UTF-8 文件。

标签： python unicode

【解决方案1】：

我在 Windows 上。有趣的是，Python 3.3 在二进制和文本模式下都可以很好地读取文件，但文本模式会解码为 Unicode，并且可能会在后台以二进制模式读取文件：

Python 3.3.0 (v3.3.0:bd8afb90ebf2, Sep 29 2012, 10:57:17) [MSC v.1600 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> open('test.txt','rb').read()
b'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'
>>> open('test.txt','r').read()
'the first line\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\nthe third line\neverything\nafter\nthe\nfourth\nline'

然而，在 Python 2.7 上，它确实停在 \x1a:

Python 2.7.5 (default, May 15 2013, 22:44:16) [MSC v.1500 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> open('test.txt','rb').read()
'the first line\r\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\r\nthe third line\r\neverything\r\nafter\r\nthe\r\nfourth\r\nline'
>>> open('test.txt','r').read()
'the first line\nsomething something \x06d '

文本和二进制模式之间唯一的其他区别是\r\n 转换为\n，因此如果您仍然想要该翻译但不停止\x1a，请以二进制格式读取文件并自己替换：

>>> open('test.txt','rb').read().replace('\r\n','\n')
'the first line\nsomething something \x06d \x1a Rd<br>+ \x1a Rd;;\x06d \x1a Rd<br>+ \x1a\nthe third line\neverything\nafter\nthe\nfourth\nline'

【讨论】：