Python 编码的这些坑，你还在踩吗！？

demi 在周二, 06/11/2019 - 11:24 提交

来源：imwty
链接：segmentfault.com/a/1190000007309014

常见的编码

ASCII: 1个字节，只编码英文字母和符号

gb2312: 2个字节，增加了中文汉字和符号

Unicode: 把所有语言都统一到一套编码里把所有语言都统一到一套编码里，

一般是2个字节，生僻字4个字节

utf-8：可变长编码，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码，这样可以节省很多存储空间。

Python编码（python2.7）

在python中，str和unicode都是basestring的子类，basestring有以下两个方法：

encode()：将unicode字符串转换为其他编码字符串，参数为转换后编码
decode()：将其他编码转换为unicode字符串，参数为转换前编码

PS:"string".decode( utf-8 ) == unicode( string , utf-8 )

 s = 中文

 print type(s), len(s)

 u = u 中文

 print type(u), len(u)

 u2s = u 中文 .encode( utf-8 )

print type(u2s), len(u2s)

结果

<type str > 6

<type unicode > 2

<type str > 6

console下查看u2s

>>> u 中文 .encode( utf-8 )

ä¸æ

结论：

python中定义的一个str变量实则是字节串，由Unicode经过编码(encode)后的字节组成的（也正好印证了utf8编码中一个中文字符是3个字节）
Unicode才是真正意义上的字符串，由字符组成

s = 中文
 
 # 这时是str，转为unicode需要用decode
 
 u = s.decode( utf-8 )
 
 print type(u)
 
 # 打印 <type  unicode >

# unicode转为str ,使用encode

s2 = u.encode( utf-8 )

print type(s2)

# 打印 <type  str >

新结论：不同编码转换,使用Unicode作为中间编码

#s是code_A的str

s.decode( code_A ).encode( code_B )

在Python 3.x版本中，把 xxx 和u xxx 已经都统一成Unicode编码了，即写不写前缀u都是一样的，而以字节形式表示的字符串则必须加上b前缀：b xxx 。

由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

python

最新文章

深入剖析Python的列表和元组	你真的知道Python的字符串是什么吗？	Python的这些实用功能你都了解吗？
【入门贴】30个常用Python实现	Python进阶：全面解读高级特性之切片！	Python开发的十个Tips，你知道几个？

每日头条