Python 3.1 中的新特性

作者:

Raymond Hettinger

本文件將介紹 Python 3.1 相對於 3.0 的新特性。Python 3.1 於 2009 年 6 月 27 日釋出。

PEP 372:有序字典

常規的 Python 字典以任意順序遍歷鍵/值對。多年來,許多作者編寫了記住鍵最初插入順序的替代實現。基於這些實現的經驗,引入了一個新的 collections.OrderedDict 類。

OrderedDict API 與常規字典基本相同,但會以鍵首次插入時的確定順序遍歷鍵和值。如果新條目覆蓋了現有條目,則原始插入位置保持不變。刪除一個條目並重新插入它會將其移到末尾。

標準庫現在支援在多個模組中使用有序字典。configparser 模組預設使用它們。這使得配置檔案可以按其原始順序讀取、修改,然後重新寫入。collections.namedtuple()_asdict() 方法現在返回一個有序字典,其中的值按底層元組索引的相同順序出現。json 模組正在透過 object_pairs_hook 進行構建,以允許解碼器構建 OrderedDict。還增加了對 PyYAML 等第三方工具的支援。

參見

PEP 372 - 有序字典

PEP 由 Armin Ronacher 和 Raymond Hettinger 撰寫。實現由 Raymond Hettinger 撰寫。

由於有序字典會記住其插入順序,因此可以將其與排序結合使用以建立已排序的字典。

>>> # regular unsorted dictionary
>>> d = {'banana': 3, 'apple':4, 'pear': 1, 'orange': 2}

>>> # dictionary sorted by key
>>> OrderedDict(sorted(d.items(), key=lambda t: t[0]))
OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)])

>>> # dictionary sorted by value
>>> OrderedDict(sorted(d.items(), key=lambda t: t[1]))
OrderedDict([('pear', 1), ('orange', 2), ('banana', 3), ('apple', 4)])

>>> # dictionary sorted by length of the key string
>>> OrderedDict(sorted(d.items(), key=lambda t: len(t[0])))
OrderedDict([('pear', 1), ('apple', 4), ('orange', 2), ('banana', 3)])

新的已排序字典在刪除條目時會保持其排序順序。但是,當新增新鍵時,鍵會附加到末尾,並且排序不會保持。

PEP 378:千位分隔符的格式說明符

內建的 format() 函式和 str.format() 方法使用一種迷你語言,現在包含一種簡單、不依賴區域設定的方式來格式化帶有千位分隔符的數字。這提供了一種使程式輸出人性化的方法,從而改善其專業外觀和可讀性。

>>> format(1234567, ',d')
'1,234,567'
>>> format(1234567.89, ',.2f')
'1,234,567.89'
>>> format(12345.6 + 8901234.12j, ',f')
'12,345.600000+8,901,234.120000j'
>>> format(Decimal('1234567.89'), ',f')
'1,234,567.89'

支援的型別有 intfloatcomplexdecimal.Decimal

目前正在討論如何指定替代分隔符,如點、空格、撇號或下劃線。與區域設定相關的應用程式應使用現有的 n 格式說明符,該說明符已經對千位分隔符提供了一些支援。

參見

PEP 378 - 千位分隔符的格式說明符

PEP 由 Raymond Hettinger 撰寫,由 Eric Smith 和 Mark Dickinson 實現。

其他語言更改

對核心 Python 語言做了一些較小的更改

  • 包含 __main__.py 檔案的目錄和 zip 存檔現在可以透過將其名稱傳遞給直譯器來直接執行。目錄/zip 檔案會自動作為第一個條目插入到 sys.path 中。(由 Andy Chu 提出並提供初始補丁;由 Phillip J. Eby 和 Nick Coghlan 修改補丁;bpo-1739468。)

  • int() 型別新增了一個 bit_length 方法,該方法返回表示其引數在二進位制中所需的位數。

    >>> n = 37
    >>> bin(37)
    '0b100101'
    >>> n.bit_length()
    6
    >>> n = 2**123-1
    >>> n.bit_length()
    123
    >>> (n+1).bit_length()
    124
    

    (由 Fredrik Johansson、Victor Stinner、Raymond Hettinger 和 Mark Dickinson 貢獻;bpo-3439。)

  • format() 字串中的欄位現在可以自動編號。

    >>> 'Sir {} of {}'.format('Gallahad', 'Camelot')
    'Sir Gallahad of Camelot'
    

    以前,字串需要編號欄位,例如:'Sir {0} of {1}'

    (由 Eric Smith 貢獻;bpo-5237。)

  • string.maketrans() 函式已棄用,並由新的靜態方法 bytes.maketrans()bytearray.maketrans() 取代。此更改解決了圍繞 string 模組支援哪些型別的混淆。現在,strbytesbytearray 各自擁有自己的 maketranstranslate 方法,並帶有相應型別的中間轉換表。

    (由 Georg Brandl 貢獻;bpo-5675。)

  • with 語句的語法現在允許在單個語句中使用多個上下文管理器。

    >>> with open('mylog.txt') as infile, open('a.out', 'w') as outfile:
    ...     for line in infile:
    ...         if '<critical>' in line:
    ...             outfile.write(line)
    

    有了新語法,不再需要 contextlib.nested() 函式,現在已棄用。

    (由 Georg Brandl 和 Mattias Brändström 貢獻;appspot issue 53094。)

  • round(x, n) 現在如果 x 是整數,則返回一個整數。以前它返回一個浮點數。

    >>> round(1123, -2)
    1100
    

    (由 Mark Dickinson 貢獻;bpo-4707。)

  • Python 現在使用 David Gay 的演算法來查詢不改變其值的最短浮點表示。這應該有助於減輕圍繞二進位制浮點數的一些混淆。

    其重要性很容易透過像 1.1 這樣的數字看出,它在二進位制浮點數中沒有精確的等價物。由於沒有精確的等價物,像 float('1.1') 這樣的表示式會評估為最接近的可表示值,該值在十六進位制中為 0x1.199999999999ap+0,或在十進位制中為 1.100000000000000088817841970012523233890533447265625。這個最接近的值過去和現在仍用於後續的浮點計算。

    新變化在於數字的顯示方式。以前,Python 使用一種簡單的方法。repr(1.1) 的值被計算為 format(1.1, '.17g'),其評估結果為 '1.1000000000000001'。使用 17 位數字的優點是它依賴於 IEEE-754 保證來確保 eval(repr(1.1)) 將精確地往返到其原始值。缺點是許多人覺得輸出令人困惑(將二進位制浮點表示的內在限制誤認為是 Python 本身的問題)。

    repr(1.1) 的新演算法更智慧,返回 '1.1'。實際上,它搜尋所有等價的字串表示(以相同的底層浮點值儲存的那些)並返回最短的表示。

    新演算法在可能的情況下傾向於發出更清晰的表示,但它不改變底層值。因此,1.1 + 2.2 != 3.3 仍然成立,即使表示可能暗示並非如此。

    新演算法依賴於底層浮點實現中的某些特性。如果找不到所需的特性,將繼續使用舊演算法。此外,文字 pickle 協議透過使用舊演算法確保跨平臺可移植性。

    (由 Eric Smith 和 Mark Dickinson 貢獻;bpo-1580

新的、改進的和已棄用的模組

  • 添加了一個 collections.Counter 類,以方便對序列或可迭代物件中的唯一項進行計數。

    >>> Counter(['red', 'blue', 'red', 'green', 'blue', 'blue'])
    Counter({'blue': 3, 'red': 2, 'green': 1})
    

    (由 Raymond Hettinger 貢獻;bpo-1696199。)

  • 添加了一個新模組 tkinter.ttk,用於訪問 Tk 主題化控制元件集。ttk 的基本思想是儘可能地將實現控制元件行為的程式碼與實現其外觀的程式碼分開。

    (由 Guilherme Polo 貢獻;bpo-2983。)

  • gzip.GzipFilebz2.BZ2File 類現在支援上下文管理協議。

    >>> # Automatically close file after writing
    >>> with gzip.GzipFile(filename, "wb") as f:
    ...     f.write(b"xxx")
    

    (由 Antoine Pitrou 貢獻。)

  • decimal 模組現在支援從二進位制 float 建立十進位制物件的方法。轉換是精確的,但有時可能令人驚訝。

    >>> Decimal.from_float(1.1)
    Decimal('1.100000000000000088817841970012523233890533447265625')
    

    長十進位制結果顯示了為 1.1 儲存的實際二進位制分數。該分數有許多位,因為 1.1 無法在二進位制中精確表示。

    (由 Raymond Hettinger 和 Mark Dickinson 貢獻。)

  • itertools 模組新增了兩個函式。itertools.combinations_with_replacement() 函式是生成組合學(包括排列和笛卡爾積)的四個函式之一。itertools.compress() 函式模仿了 APL 中的同名函式。此外,現有 itertools.count() 函式現在有一個可選的 step 引數,並且可以接受任何型別的計數序列,包括 fractions.Fractiondecimal.Decimal

    >>> [p+q for p,q in combinations_with_replacement('LOVE', 2)]
    ['LL', 'LO', 'LV', 'LE', 'OO', 'OV', 'OE', 'VV', 'VE', 'EE']
    
    >>> list(compress(data=range(10), selectors=[0,0,1,1,0,1,0,1,0,0]))
    [2, 3, 5, 7]
    
    >>> c = count(start=Fraction(1,2), step=Fraction(1,6))
    >>> [next(c), next(c), next(c), next(c)]
    [Fraction(1, 2), Fraction(2, 3), Fraction(5, 6), Fraction(1, 1)]
    

    (由 Raymond Hettinger 貢獻。)

  • collections.namedtuple() 現在支援一個關鍵字引數 rename,它允許將無效的欄位名自動轉換為 _0、_1 等形式的位置名稱。這在欄位名由外部源(如 CSV 標頭、SQL 欄位列表或使用者輸入)建立時非常有用。

    >>> query = input()
    SELECT region, dept, count(*) FROM main GROUPBY region, dept
    
    >>> cursor.execute(query)
    >>> query_fields = [desc[0] for desc in cursor.description]
    >>> UserQuery = namedtuple('UserQuery', query_fields, rename=True)
    >>> pprint.pprint([UserQuery(*row) for row in cursor])
    [UserQuery(region='South', dept='Shipping', _2=185),
     UserQuery(region='North', dept='Accounting', _2=37),
     UserQuery(region='West', dept='Sales', _2=419)]
    

    (由 Raymond Hettinger 貢獻;bpo-1818。)

  • re.sub()re.subn()re.split() 函式現在接受一個 flags 引數。

    (由 Gregory Smith 貢獻。)

  • logging 模組現在實現了一個簡單的 logging.NullHandler 類,用於不使用日誌記錄但呼叫使用日誌記錄的庫程式碼的應用程式。設定空處理程式將抑制虛假警告,例如“找不到記錄器 foo 的處理程式”。

    >>> h = logging.NullHandler()
    >>> logging.getLogger("foo").addHandler(h)
    

    (由 Vinay Sajip 貢獻;bpo-4384)。

  • 支援 -m 命令列開關的 runpy 模組現在支援透過查詢並執行 __main__ 子模組來執行包,前提是提供了包名。

    (由 Andi Vajda 貢獻;bpo-4195。)

  • pdb 模組現在可以訪問和顯示透過 zipimport(或任何其他符合 PEP 302 載入器)載入的原始碼。

    (由 Alexander Belopolsky 貢獻;bpo-4201。)

  • functools.partial 物件現在可以被 pickle。

(由 Antoine Pitrou 和 Jesse Noller 建議。由 Jack Diederich 實現;bpo-5228。)

  • 為符號添加了 pydoc 幫助主題,以便 help('@') 在互動式環境中按預期工作。

    (由 David Laban 貢獻;bpo-4739。)

  • unittest 模組現在支援跳過單個測試或測試類。它還支援將測試標記為預期失敗,即已知有問題的測試,但不應計入 TestResult 中的失敗。

    class TestGizmo(unittest.TestCase):
    
        @unittest.skipUnless(sys.platform.startswith("win"), "requires Windows")
        def test_gizmo_on_windows(self):
            ...
    
        @unittest.expectedFailure
        def test_gimzo_without_required_library(self):
            ...
    

    此外,異常測試已構建為透過使用 with 語句與上下文管理器一起工作。

    def test_division_by_zero(self):
        with self.assertRaises(ZeroDivisionError):
            x / 0
    

    此外,還添加了幾個新的斷言方法,包括 assertSetEqual()assertDictEqual()assertDictContainsSubset()assertListEqual()assertTupleEqual()assertSequenceEqual()assertRaisesRegexp()assertIsNone()assertIsNotNone()

    (由 Benjamin Peterson 和 Antoine Pitrou 貢獻。)

  • io 模組的 seek() 方法有三個新常量:SEEK_SETSEEK_CURSEEK_END

  • sys.version_info 元組現在是一個命名元組。

    >>> sys.version_info
    sys.version_info(major=3, minor=1, micro=0, releaselevel='alpha', serial=2)
    

    (由 Ross Light 貢獻;bpo-4285。)

  • nntplibimaplib 模組現在支援 IPv6。

    (由 Derek Morr 貢獻;bpo-1655bpo-1664。)

  • pickle 模組經過修改,以便在使用協議 2 或更低版本時與 Python 2.x 更好地互操作。標準庫的重組改變了許多物件的正式引用。例如,Python 2 中的 __builtin__.set 在 Python 3 中稱為 builtins.set。此更改阻礙了在不同 Python 版本之間共享資料的努力。但現在,當選擇協議 2 或更低版本時,pickle 程式將自動使用舊的 Python 2 名稱進行載入和轉儲。此重新對映預設開啟,但可以使用 fix_imports 選項停用。

    >>> s = {1, 2, 3}
    >>> pickle.dumps(s, protocol=0)
    b'c__builtin__\nset\np0\n((lp1\nL1L\naL2L\naL3L\natp2\nRp3\n.'
    >>> pickle.dumps(s, protocol=0, fix_imports=False)
    b'cbuiltins\nset\np0\n((lp1\nL1L\naL2L\naL3L\natp2\nRp3\n.'
    

    此更改的一個不幸但不可避免的副作用是,Python 3.1 生成的協議 2 pickle 檔案將無法被 Python 3.0 讀取。在 Python 3.x 實現之間遷移資料時,應使用最新的 pickle 協議(協議 3),因為它不嘗試保持與 Python 2.x 的相容性。

    (由 Alexandre Vassalotti 和 Antoine Pitrou 貢獻,bpo-6137。)

  • 添加了一個新模組 importlib。它提供了 import 語句及其對應函式 __import__() 的完整、可移植、純 Python 參考實現。它代表著在記錄和定義匯入期間發生的動作方面邁出了重要一步。

    (由 Brett Cannon 貢獻。)

最佳化

效能得到顯著提升。

  • 新的 I/O 庫(如 PEP 3116 中定義)主要用 Python 編寫,並很快被證明是 Python 3.0 中的一個問題瓶頸。在 Python 3.1 中,I/O 庫已完全用 C 重寫,根據手頭的任務,速度提高了 2 到 20 倍。純 Python 版本仍然可以透過 _pyio 模組用於實驗目的。

    (由 Amaury Forgeot d’Arc 和 Antoine Pitrou 貢獻。)

  • 添加了一個啟發式演算法,使得只包含不可跟蹤物件的元組和字典不被垃圾回收器跟蹤。這可以減少集合的大小,從而減少長時間執行程式中的垃圾回收開銷,具體取決於它們對資料型別的特定使用。

    (由 Antoine Pitrou 貢獻,bpo-4688。)

  • 在支援計算 goto 的編譯器(特別是:gcc、SunPro、icc)上啟用名為 --with-computed-gotos 的配置選項,位元組碼評估迴圈將使用新的排程機制進行編譯,可將速度提高高達 20%,具體取決於系統、編譯器和基準測試。

    (由 Antoine Pitrou 以及許多其他參與者貢獻,bpo-4753)。

  • UTF-8、UTF-16 和 LATIN-1 的解碼速度現在提高了兩到四倍。

    (由 Antoine Pitrou 和 Amaury Forgeot d’Arc 貢獻,bpo-4868。)

  • json 模組現在有一個 C 擴充套件,可以顯著提高其效能。此外,API 也進行了修改,使得 json 僅適用於 str,而不適用於 bytes。這一更改使模組更緊密地符合 JSON 規範,該規範是根據 Unicode 定義的。

    (由 Bob Ippolito 貢獻,並由 Antoine Pitrou 和 Benjamin Peterson 轉換為 Py3.1;bpo-4136。)

  • 取消 pickle 時現在會實習已 pickle 物件的屬性名。這節省了記憶體並使 pickle 檔案更小。

    (由 Jake McGuire 和 Antoine Pitrou 貢獻;bpo-5084。)

IDLE

  • IDLE 的格式選單現在提供一個選項,可以從原始檔中去除尾隨空格。

    (由 Roger D. Serwy 貢獻;bpo-5150。)

構建和 C API 更改

Python 的構建過程和 C API 的更改包括

  • 整數現在內部儲存在基數 2**15 或基數 2**30 中,基數在構建時確定。以前,它們總是儲存在基數 2**15 中。使用基數 2**30 可在 64 位機器上提供顯著的效能改進,但 32 位機器上的基準測試結果好壞參半。因此,預設情況下,在 64 位機器上使用基數 2**30,在 32 位機器上使用基數 2**15;在 Unix 上,有一個新的配置選項 --enable-big-digits 可用於覆蓋此預設值。

    除了效能改進之外,此更改對終端使用者應該是不可見的,只有一個例外:出於測試和除錯目的,有一個新的 sys.int_info,提供有關內部格式的資訊,給出每位位數以及用於儲存每位數的 C 型別的大小(以位元組為單位)。

    >>> import sys
    >>> sys.int_info
    sys.int_info(bits_per_digit=30, sizeof_digit=4)
    

    (由 Mark Dickinson 貢獻;bpo-4258。)

  • PyLong_AsUnsignedLongLong() 函式現在透過引發 OverflowError 而不是 TypeError 來處理負 pylong

    (由 Mark Dickinson 和 Lisandro Dalcrin 貢獻;bpo-5175。)

  • PyNumber_Int() 已棄用。請改用 PyNumber_Long()

    (由 Mark Dickinson 貢獻;bpo-4910。)

  • 添加了一個新的 PyOS_string_to_double() 函式,以取代已棄用的函式 PyOS_ascii_strtod()PyOS_ascii_atof()

    (由 Mark Dickinson 貢獻;bpo-5914。)

  • 添加了 PyCapsule 作為 PyCObject API 的替代品。主要區別在於新型別具有明確的介面,用於傳遞型別安全資訊,並且呼叫解構函式的簽名更簡單。舊型別具有有問題的 API,現在已棄用。

    (由 Larry Hastings 貢獻;bpo-5630。)

移植到 Python 3.1

本節列出以前描述的更改以及可能需要更改您的程式碼的其他錯誤修復

  • 新的浮點字串表示形式可能會破壞現有的 doctest。例如:

    def e():
        '''Compute the base of natural logarithms.
    
        >>> e()
        2.7182818284590451
    
        '''
        return sum(1/math.factorial(x) for x in reversed(range(30)))
    
    doctest.testmod()
    
    **********************************************************************
    Failed example:
        e()
    Expected:
        2.7182818284590451
    Got:
        2.718281828459045
    **********************************************************************
    
  • pickle 模組中協議 2 或更低版本的自動名稱重對映可能導致 Python 3.1 的 pickle 檔案在 Python 3.0 中無法讀取。一種解決方案是使用協議 3。另一種解決方案是將 fix_imports 選項設定為 False。有關更多詳細資訊,請參閱上面的討論。