Python基础学习——文件操作、函数

一、文件操作

　　文件操作链接：http://www.cnblogs.com/linhaifeng/articles/5984922.html（更多内容见此链接）

编码发展史

美国人发明了计算机，用八位0和1的组合，一一对应英文中的字符，整出了一个表格，ASCII表。
计算机传入中国，中国地大物博，繁体字和简体字多，8位字节最多表示256个字符，满足不了，于是对ASCII扩展，新表叫GB2312
后来发现GB2312还不够用，扩充之后形成GB18030。
每个国家都像中国一样，把自己的语言编码，于是出现了各种各样的编码，如果你不安装相应的编码，就无法解释相应编码想表达的内容。
各自编码无法国际交流。一个国际组织一起创造了一种编码 UNICODE（Universal Multiple-Octet Coded Character Set）规定所有字符用两个字节表示，就是固定的，所有的字符就两个字节，计算机容易识别。2的16次方可以表示所有的字符了。
UNICODE虽然解决了各自为战的问题，但是美国人不愿意了，因为美国原来的ASCII只需要一个字节就可以了。UNICODE编码却让他们的语言多了一个字节，白白浪费一个字节的存储空间。经过协商，出现了一种新的转换格式，被称为通用转换格式，也就是UTF(unicode transformation format).常见的有utf-8,utf-16。utf-8规定，先分类，美国字符一个字节，欧洲两个字符，东南亚三个字符。

encode()和decode()

decode英文意思是解码，encode英文原意编码
字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。
总得意思:想要将其他的编码转换成utf-8必须先将其解码成unicode然后重新编码成utf-8,它是以unicode为转换媒介的如：s='中文' 如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用 decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件

Python基础学习——文件操作、函数

'''
ascii
            A : 00000010  8位 一个字节

unicode     A : 00000000 00000001 00000010 00000100 32位  四个字节
            中：00000000 00000001 00000010 00000110 32位  四个字节


utf-8      A :  00100000 8位 一个字节
          中 :  00000001 00000010 00000110 24位 三个字节


gbk        A : 00000110  8位 一个字节
         中  : 00000010 00000110 16位 两个字节
1，各个编码之间的二进制，是不能互相识别的，会产生乱码。
2，文件的储存，传输，不能是unicode（只能是utf-8 utf-16 gbk,gb2312,asciid等）

py3:
    str 在内存中是用unicode编码。
        bytes类型
        对于英文：
             str  ：表现形式：s = 'alex'
                    编码方式： 010101010  unicode
            bytes ：表现形式：s = b'alex'
                    编码方式： 000101010  utf-8 gbk。。。。

        对于中文：
             str  ：表现形式：s = '中国'
                    编码方式： 010101010  unicode
            bytes ：表现形式：s = b'x\e91\e91\e01\e21\e31\e32'
                    编码方式： 000101010  utf-8 gbk。。。。
'''

# 编码

# 英文
# s1 = 'wzs'
# # encode 编码，如何将str-->bytes
# # s11 = s1.encode('utf-8')
# s11 = s1.encode('gbk')
# # s11 = s1.encode('gb2312')
# print(s11)

# 中文
s2 = '中国'
# s21 = s2.encode('utf-8') #结果：b'\xe4\xb8\xad\xe5\x9b\xbd'
# s21 = s2.encode('gbk') #结果 b'\xd6\xd0\xb9\xfa'
s21 = s2.encode('gb2312') #结果 b'\xd6\xd0\xb9\xfa'
print(s21)

字符编码