发布网友 发布时间:2024-09-08 23:11
共1个回答
热心网友 时间:2024-10-04 22:28
导读:今天首席CTO笔记来给各位分享关于python3多少源代码的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
python3字符串都是什么编码编码
字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。
因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295。
由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。
Unicode
Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。
Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。
现在,捋一捋ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节。
字母A用ASCII编码是十进制的65,二进制的01000001;
字符0用ASCII编码是十进制的48,二进制的00110000,注意字符'0'和整数0是不同的;
汉字已经超出了ASCII编码的范围,用Unicode编码是十进制的20013,二进制的0100111000101101。
如果把ASCII编码的A用Unicode编码,只需要在前面补0就可以,因此,A的Unicode编码是0000000001000001。
新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。
所以,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:
字符
ASCII
Unicode
UTF-8
A??01000001??0000000001000001??01000001?
中??x??0100111000101101??111001001011100010101101?
从上面的表格还可以发现,UTF-8编码有一个额外的好处,就是ASCII编码实际上可以被看成是UTF-8编码的一部分,所以,大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。
搞清楚了ASCII、Unicode和UTF-8的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式:
在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。
用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:
浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:
所以你看到很多网页的源码上会有类似metacharset="UTF-8"/的信息,表示该网页正是用的UTF-8编码。
Python的字符串
在最新的Python3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言,例如:
print('包含中文的str')
包含中文的str
对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:
ord('A')65
ord('中')20013
chr(66)'B'chr(25991)'文'
如果知道字符的整数编码,还可以用十六进制这么写str
'\u4e2d\u6587'//中文
byte
由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes。
Python对bytes类型的数据用带b前缀的单引号或双引号表示:
x=b'ABC'
要注意区分'ABC'和b'ABC',前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节。
以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如:
'ABC'.encode('ascii')
b'ABC''中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87''中文'.encode('ascii')
Traceback(mostrecentcalllast):
File"stdin",line1,inmoduleUnicodeEncodeError:'ascii'codeccan'tencodecharactersinposition0-1:ordinalnotinrange(128)
纯英文的str可以用ASCII编码为bytes,内容是一样的,含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错。
在bytes中,无法显示为ASCII字符的字节,用\x##显示。
反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:
b'ABC'.decode('ascii')'ABC'b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')'中文'
要计算str包含多少个字符,可以用len()函数
len('ABC')3
len('中文')2
len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数
len(b'ABC')3
len(b'\xe4\xb8\xad\xe6\x96\x87')6
len('中文'.encode('utf-8'))6
1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节。
在操作字符串时,我们经常遇到str和bytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换。
Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行
#!/usr/bin/envpython3#-*-coding:utf-8-*-
第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。
格式化:
在Python中,采用的格式化方式和C语言是一致的,用%实现,举例如下:
format%(...params)
'Hello,%s'%'world''Hello,world''Hi,%s,youhave$%d.'%('Michael',1000000)'Hi,Michael,youhave$1000000.'
%运算符就是用来格式化字符串的。在字符串内部,%s表示用字符串替换,%d表示用整数替换,%x表示16进制整数,有几个%?占位符,后面就跟几个变量或者值,顺序要对应好。如果只有一个%?,括号可以省略。
格式化整数和浮点数还可以指定是否补0和整数与小数的位数:
'%2d-%02d'%(3,1)'3-01''%.2f'%3.1415926'3.14'
有些时候,字符串里面的%是一个普通字符怎么办?这个时候就需要转义,用%%来表示一个%:
'growthrate:%d%%'%7'growthrate:7%'
哪里有用python做的程序的源代码啊py2exe啊,一点也不老,稳定而且好用。
操作步骤如下:
如果你有一个名为helloworld.py的python脚本,你想把它转换为运行在windows上的可执行程序,并运行在没有安装python的windows系统上,那么首先你应写一个用于发布程序的设置脚本例如mysetup.py,在其中的setup函数前插入语句importpy2exe。
mysetup.py示例如下:
#mysetup.py
fromdistutils.coreimportsetup
importpy2exe
setup(console=["helloworld.py"])
然后按下面的方法运行mysetup.py:
pythonmysetup.pypy2exe
上面的命令执行后将产生一个名为dist的子目录,其中包含了helloworld.exe,python24.dll,library.zip这些文件。
如果你的helloworld.py脚本中用了已编译的C扩展模块,那么这些模块也会被拷贝在个子目录中,同样,所有的dll文件在运行时都是需要的,除了系统的dll文件。
dist子目录中的文件包含了你的程序所必须的东西,你应将这个子目录中的所有内容一起发布。
默认情况下,py2exe在目录dist下创建以下这些必须的文件:
1、一个或多个exe文件。
2、python##.dll。
3、几个.pyd文件,它们是已编译的扩展名,它们是exe文件所需要的;加上其它的.dll文件,这些.dll是.pyd所需要的。
4、一个library.zip文件,它包含了已编译的纯的python模块如.pyc或.pyo
上面的mysetup.py创建了一个控制台的helloword.exe程序,如果你要创建一个图形用户界的程序,那么你只需要将mysetup.py中的console=["helloworld.py"]替换为windows=["myscript.py"]既可。
py2exe一次能够创建多个exe文件,你需要将这些脚本文件的列表传递给console或windows的关键字参数。如果你有几个相关联的脚本,那么这是很有用的。
运行下面个命令,将显示py2exe命令的所有命令行标记。
pythonmysetup.pypy2exe--help
python2.0与python3.0的区别。
Python2.0与Python3.0主要区别在于以下几个方面:
1、输出
Python2.0使用print关键字进行输出,比如:print“Hello”;
Python3.0使用print()函数,比如print("Hello")。
2、输入方面
Python2.0使用raw_input()函数,比如:name=raw_input("请输入你的名字:");
Python3.0使用input()函数,比如:name=input("请输入你的名字:")。
3、字符串的编码格式
Python2.0默认采用ASCII编码对输入的字符串进行编码;
而Python3.0默认采用Unicode编码对字符串进行编码。
4、格式化字符串的方式
Python2.0用%占位符进行标准化格式输出字符串,比如:“Hello,%s"%("World");
Python3.0用format()函数,比如:”Hello,{}“.format("World")。
5、源文件的编码格式
Python2.0默认采用ASCII,因此使用中文时要在源文件开头加上一行注释:#--coding:utf-8--;
Python3.0默认采用utf-8。
python2和python3的区别你应该是刚接触Python吧,建议直接学Python3.x
下面是Python2.x与3.x版本区别:
Python的3.0版本,常被称为Python3000,或简称Py3k。相对于Python的早期版本,这是一个较大的升级。
为了不带入过多的累赘,Python3.0在设计的时候没有考虑向下相容。
许多针对早期Python版本设计的程式都无法在Python3.0上正常执行。
为了照顾现有程式,Python2.6作为一个过渡版本,基本使用了Python2.x的语法和库,同时考虑了向Python3.0的迁移,允许使用部分Python3.0的语法与函数。
新的Python程式建议使用Python3.0版本的语法。
除非执行环境无法安装Python3.0或者程式本身使用了不支援Python3.0的第三方库。目前不支援Python3.0的第三方库有Twisted,py2exe,PIL等。
大多数第三方库都正在努力地相容Python3.0版本。即使无法立即使用Python3.0,也建议编写相容Python3.0版本的程式,然后使用Python2.6,Python2.7来执行。
Python3.0的变化主要在以下几个方面:
1.print函数
print语句没有了,取而代之的是print()函数。Python2.6与Python2.7部分地支持这种形式的print语法。在Python2.6与Python2.7里面,以下三种形式是等价的:
print?"fish"
print?("fish")?#注意print后面有个空格
print("fish")?#print()不能带有任何其它参数
然而,Python2.6实际已经支持新的print()语法:
from?__future__?import?print_function
print("fish",?"panda",?sep=',?')
2.Unicode(这是一个极其好的改进)
Python2有ASCIIstr()类型,unicode()是单独的,不是byte类型。
现在,在Python3,我们最终有了Unicode(utf-8)字符串,以及一个字节类:byte和bytearrays。
由于Python3.X源码文件默认使用utf-8编码,这就使得以下代码是合法的:
?中国?=?'china'?
print(中国)?
china
Python2.x
?str?=?"我爱北京天安门"
?str
'\xe6\x88\x91\xe7\x88\xb1\xe5\x8c\x97\xe4\xba\xac\xe5\xa4\xa9\xe5\xae\x89\xe9\x97\xa8'
?str?=?u"我爱北京天安门"
?str
u'\u6211\u7231\u5317\u4eac\u5929\u5b89\u95e8'
Python3.x
?str?=?"我爱北京"
?str
'我爱北京'
3.除法运算
Python中的除法较其它语言显得非常高端,有套很复杂的规则。Python中的除法有两个运算符,/和//
首先来说/除法:
在python2.x中/除法就跟我们熟悉的大多数语言,比如Java啊C啊差不多,整数相除的结果是一个整数,把小数部分完全忽略掉,浮点数除法会保留小数点的部分得到一个浮点数的结果。
在python3.x中/除法不再这么做了,对于整数之间的相除,结果也会是浮点数。
Python2.x:
?1?/?2
?1.0?/?2.0
0.5
Python3.x:
?1/2
0.5
注意的是并不是舍弃小数部分,而是执行floor操作,如果要截取小数部分,那么需要使用math模块的trunc函数
python3.x:
?import?math
?math.trunc(1?/?2)
?math.trunc(-1?/?2)
4.异常
在Python3中处理异常也轻微的改变了,在Python3中我们现在使用as作为关键词。
捕获异常的语法由?exceptexc,var?改为?exceptexcasvar。
使用语法except(exc1,exc2)asvar可以同时捕获多种类别的异常。Python2.6已经支持这两种语法。
1.在2.x时代,所有类型的对象都是可以被直接抛出的,在3.x时代,只有继承自BaseException的对象才可以被抛出。
2.2.xraise语句使用逗号将抛出对象类型和参数分开,3.x取消了这种奇葩的写法,直接调用构造函数抛出对象即可。
在2.x时代,异常在代码中除了表示程序错误,还经常做一些普通控制结构应该做的事情,在3.x中可以看出,设计者让异常变的更加专一,只有在错误发生的情况才能去用异常捕获语句来处理。
5.xrange
在Python2中xrange()创建迭代对象的用法是非常流行的。比如:for循环或者是列表/集合/字典推导式。
这个表现十分像生成器(比如。"惰性求值")。但是这个xrange-iterable是无穷的,意味着你可以无限遍历。
由于它的惰性求值,如果你不得仅仅不遍历它一次,xrange()函数比range()更快(比如for循环)。尽管如此,对比迭代一次,不建议你重复迭代多次,因为生成器每次都从头开始。
在Python3中,range()是像xrange()那样实现以至于一个专门的xrange()函数都不再存在(在Python3中xrange()会抛出命名异常)。
import?timeit
n?=?10000
def?test_range(n):
????return?for?i?in?range(n):
????????pass
def?test_xrange(n):
????for?i?in?xrange(n):
????????pass
Python2
print?'Python',?python_version()
print?'\ntiming?range()'?
%timeit?test_range(n)
print?'\n\ntiming?xrange()'?
%timeit?test_xrange(n)
Python?2.7.6
timing?range()
1000?loops,?best?of?3:?433??s?per?loop
timing?xrange()
1000?loops,?best?of?3:?350??s?per?loop
Python3
print('Python',?python_version())
print('\ntiming?range()')
%timeit?test_range(n)
Python?3.4.1
timing?range()
1000?loops,?best?of?3:?520??s?per?loop
print(xrange(10))
---------------------------------------------------------------------------
NameError???????????????????????Traceback?(most?recent?call?last)
ipython-input-5-5d8f9b79ea70?in?module()
----?1?print(xrange(10))
NameError:?name?'xrange'?is?not?defined
6.八进制字面量表示
八进制数必须写成0o777,原来的形式0777不能用了;二进制必须写成0b111。
新增了一个bin()函数用于将一个整数转换成二进制字串。Python2.6已经支持这两种语法。
在Python3.x中,表示八进制字面量的方式只有一种,就是0o1000。
python2.x
?0o1000
512
?01000
512
python3.x
?01000
??File?"stdin",?line?1
????01000
??????^
SyntaxError:?invalid?token
?0o1000
512
7.不等运算符
Python2.x中不等于有两种写法!=和
Python3.x中去掉了,只有!=一种写法,还好,我从来没有使用的习惯
8.去掉了repr表达式``
Python2.x中反引号``相当于repr函数的作用
Python3.x中去掉了``这种写法,只允许使用repr函数,这样做的目的是为了使代码看上去更清晰么?不过我感觉用repr的机会很少,一般只在debug的时候才用,多数时候还是用str函数来用字符串描述对象。
def?sen