Python Cookbook 3rd Edition Documentation

Contents:

前言

译者的话

人生苦短,我用 Python!

译者一直坚持使用 Python 3,因为它代表了 Python 的未来。虽然向后兼容是它的硬伤,但是这个局面迟早会改变的, 而且 Python 3 的未来需要每个人的帮助和支持。 目前市面上的教程书籍,网上的手册大部分基本都是 2.x 系列的,专门基于 3.x 系列的书籍少的可怜。

最近看到一本《Python Cookbook》3rd Edition,完全基于 Python 3,写的也很不错。 为了 Python 3 的普及,我也不自量力,想做点什么事情。于是乎,就有了翻译这本书的冲动了! 这不是一项轻松的工作,却是一件值得做的工作:不仅方便了别人,而且对自己翻译能力也是一种锻炼和提升。

译者会坚持对自己每一句的翻译负责,力求高质量。但受能力限制,也难免有疏漏或者表意不当的地方。 如果译文中有什么错漏的地方请大家见谅,也欢迎大家随时指正: yidao620@gmail.com

作者的话

自从 2008 年以来,Python 3 横空出世并慢慢进化。Python 3 的流行一直被认为需要很长一段时间。 事实上,到我写这本书的 2013 年,绝大部分的 Python 程序员仍然在生产环境中使用的是版本 2 系列, 最主要是因为 Python 3 不向后兼容。毫无疑问,对于工作在遗留代码上的每个程序员来讲,向后兼容是不得不考虑的问题。 但是放眼未来,你就会发现 Python 3 给你带来不一样的惊喜。

正如 Python 3 代表未来一样,新的《Python Cookbook》版本相比较之前的版本有了一个全新的改变。 首先,也是最重要的,这意味着本书是一本非常前沿的参考书。书中所有代码都是在 Python 3.3 版本下面编写和测试的, 并没有考虑之前老版本的兼容性,也没有标注旧版本下的解决方案。这样子可能会有争议, 但是我们最终的目的是写一本完全基于现代工具和语言的书籍。 我们希望本书能够指导人们使用 Python 3 编写新的代码或者升级之前的遗留代码。

毫无疑问,编写一本这样的书给编辑工作带来一定的挑战。如果在网上搜索 Python 秘籍的话,会在诸如 ActiveState’s Python recipes 或者 Stack Overflow 的网站上搜到数以千计的有用的秘籍,但是其中绝大部分都已经是过时的了。 这些秘籍除了是基于 Python 2 编写之外,可能还有很多解决方案在不同的版本之间是不一样的 (比如 2.3 和 2.4 版本)。 另外,它们还会经常使用一些过时的技术,这些可能已经内置到 Python 3.3 里面去了。寻找完全基于 Python 3 的秘籍真的难上加难啊。

这本书的所有主题都是基于已经存在的代码和技术,而不是专门去寻找 Python 3 特有的秘籍。 在原有代码基础上,我们完全使用最新的 Python 技术去改造。 所以,任何想使用最新技术编写代码的程序员,都可以将本书当做一本很好的参考书籍。

在选择要包含哪些秘籍方面,很明显不可能编写一本书囊括 Python 领域所有的东西。 因此,我们优先选择了 Python 语言核心部分,以及那些有着广泛应用领域的问题。 另外,其中有很多秘籍用来展示 Python 3 的新特性, 这对于很多人来说是比较陌生的,哪怕是使用 Python 老版本的经验丰富的程序员。 这些示例程序也会偏向于展示一些有着广泛应用的编程技术 (即编程模式), 而不是仅仅定位在一些具体的问题上。尽管也提及到了一些第三方包,但是本书主要定位在 Python 语言核心和标准库。

这本书适合谁

这本书的目标读者是那些想深入理解 Python 语言机制和现代编程风格的有经验的 Python 程序员。 本书大部分内容集中于在标准库,框架和应用程序中广泛使用的高级技术。 本书所有示例均假设读者具有一定的编程背景并且可以读懂相关主题 (比如基本的计算机科学知识,数据结构知识,算法复杂度,系统编程,并行,C 语言编程等)。 另外,每个示例都只是一个入门指导,如果读者想深入研究,需要自己去查阅更多资料。 我们假定读者可以很熟练的使用搜索引擎以及知道怎样查询在线的 Python 文档。

有一些更加高级的秘籍,如果耐心阅读,将有助于理解 Python 底层的工作原理。 从中你将学到一些新的技巧和技术,并应用到你自己的代码中去。

这本书不适合谁

这本书不适合 Python 的初学者。事实上,本书假定读者具有 Python 教程或入门书籍中所教授的基础知识。 本书也不是那种快速参考手册 (例如快速查询某个模块下的某个函数)。 本书旨在聚焦几个最重要的主题,演示几种可能的解决方案, 提供一个跳板引导读者进入一些更高级的内容(这些可以在网上或者参考手册中找到)。

在线示例代码

本书几乎所有源代码均可以在 http://github.com/dabeaz/python-cookbook 上面找到。 作者欢迎各位读者修正 bug,改进代码和评论。

使用示例代码

本书就是帮助你完成你的工作的。 一般来讲,只要是本书上面的示例代码,你都可以随时拿过去在你的源代码和文档中使用。 除非你使用了大量的代码,否则不需要向我们申请许可。 例如,使用几个代码片段去完成一个程序不需要许可,贩卖或者分发示例代码的光盘则需要许可。 引用本书和示例代码去网上回答一个问题不需要许可,但是合并大量的代码到你的正式产品文档中去则需要许可。

我们不会要求你添加代码的出处,但是如果你这么做了,我们会很感激的。 引用通常包含标题,作者,出版社,ISBN。 例如:Python Cookbook, 3rd edition, by David Beazley and Brian K. Jones (O’Reilly). Copyright 2013 David Beazley and Brian Jones, 978-1-449-34037-7.

如果你觉得你对示例代码的使用超出了合理使用或者上述列出的许可范围, 请随时联系我们,我们的邮箱是 permissions@oreilly.com

联系我们

请将关于本书的评论和问题发送给出版社:

O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
800-998-9938 (in the United States or Canada)
707-829-0515 (international or local)
707-829-0104 (fax)

我们为本书建立了一个网页, 其中包含勘误表,示例和一些其他信息。 可以通过链接 http://oreil.ly/python_cookbook_3e 访问。

关于本书的建议和技术性问题,请发送邮件至: bookquestions@oreilly.com

关于我们的书籍,讨论会,新闻的更多信息, 请访问我们的网站: http://www.oreilly.com

在 Facebook 上找到我们:http://facebook.com/oreilly

在 Twitter 上关注我们:http://twitter.com/oreillymedia

在 YouTube 上观看我们:http://www.youtube.com/oreillymedia

致谢

我们衷心感谢本书的技术校审人员 Jake Vanderplas,Robert Kern 和 Andrea Crotti 非常有用的评论和建议, 还有 Python 社区的帮助和鼓励。我们同样感谢上一个版本的编辑 Alex Martelli,Anna Ravenscroft 和 David Ascher。 尽管这个版本是新创作的,但是前一个版本为本书提供了一个挑选主题和秘籍的初始框架。 最后也是最重要的,我们要感谢所有早期预览版本的读者,感谢你们为本书的改进提出的建议和意见。

第一章:数据结构和算法

Python 提供了大量的内置数据结构,包括列表,集合以及字典。大多数情况下使用这些数据结构是很简单的。 但是,我们也会经常碰到到诸如查询,排序和过滤等等这些普遍存在的问题。 因此,这一章的目的就是讨论这些比较常见的问题和算法。 另外,我们也会给出在集合模块 collections 当中操作这些数据结构的方法。

1.1 解压序列赋值给多个变量

问题

现在有一个包含 N 个元素的元组或者是序列,怎样将它里面的值解压后同时赋值给 N 个变量?

解决方案

任何的序列(或者是可迭代对象)可以通过一个简单的赋值语句解压并赋值给多个变量。 唯一的前提就是变量的数量必须跟序列元素的数量是一样的。

代码示例:

>>> p = (4, 5)
>>> x, y = p
>>> x
4
>>> y
5
>>>
>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
>>> name, shares, price, date = data
>>> name
'ACME'
>>> date
(2012, 12, 21)
>>> name, shares, price, (year, mon, day) = data
>>> name
'ACME'
>>> year
2012
>>> mon
12
>>> day
21
>>>

如果变量个数和序列元素的个数不匹配,会产生一个异常。

代码示例:

>>> p = (4, 5)
>>> x, y, z = p
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ValueError: need more than 2 values to unpack
>>>

讨论

实际上,这种解压赋值可以用在任何可迭代对象上面,而不仅仅是列表或者元组。 包括字符串,文件对象,迭代器和生成器。

代码示例:

>>> s = 'Hello'
>>> a, b, c, d, e = s
>>> a
'H'
>>> b
'e'
>>> e
'o'
>>>

有时候,你可能只想解压一部分,丢弃其他的值。对于这种情况 Python 并没有提供特殊的语法。 但是你可以使用任意变量名去占位,到时候丢掉这些变量就行了。

代码示例:

>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ]
>>> _, shares, price, _ = data
>>> shares
50
>>> price
91.1
>>>

你必须保证你选用的那些占位变量名在其他地方没被使用到。

1.2 解压可迭代对象赋值给多个变量

问题

如果一个可迭代对象的元素个数超过变量个数时,会抛出一个 ValueError 。 那么怎样才能从这个可迭代对象中解压出 N 个元素出来?

解决方案

Python 的星号表达式可以用来解决这个问题。比如,你在学习一门课程,在学期末的时候, 你想统计下家庭作业的平均成绩,但是排除掉第一个和最后一个分数。如果只有四个分数,你可能就直接去简单的手动赋值, 但如果有 24 个呢?这时候星号表达式就派上用场了:

def drop_first_last(grades):
    first, *middle, last = grades
    return avg(middle)

另外一种情况,假设你现在有一些用户的记录列表,每条记录包含一个名字、邮件,接着就是不确定数量的电话号码。 你可以像下面这样分解这些记录:

>>> record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
>>> name, email, *phone_numbers = record
>>> name
'Dave'
>>> email
'dave@example.com'
>>> phone_numbers
['773-555-1212', '847-555-1212']
>>>

值得注意的是上面解压出的 phone_numbers 变量永远都是列表类型,不管解压的电话号码数量是多少(包括 0 个)。 所以,任何使用到 phone_numbers 变量的代码就不需要做多余的类型检查去确认它是否是列表类型了。

星号表达式也能用在列表的开始部分。比如,你有一个公司前 8 个月销售数据的序列, 但是你想看下最近一个月数据和前面 7 个月的平均值的对比。你可以这样做:

*trailing_qtrs, current_qtr = sales_record
trailing_avg = sum(trailing_qtrs) / len(trailing_qtrs)
return avg_comparison(trailing_avg, current_qtr)

下面是在 Python 解释器中执行的结果:

>>> *trailing, current = [10, 8, 7, 1, 9, 5, 10, 3]
>>> trailing
[10, 8, 7, 1, 9, 5, 10]
>>> current
3

讨论

扩展的迭代解压语法是专门为解压不确定个数或任意个数元素的可迭代对象而设计的。 通常,这些可迭代对象的元素结构有确定的规则(比如第 1 个元素后面都是电话号码), 星号表达式让开发人员可以很容易的利用这些规则来解压出元素来。 而不是通过一些比较复杂的手段去获取这些关联的元素值。

值得注意的是,星号表达式在迭代元素为可变长元组的序列时是很有用的。 比如,下面是一个带有标签的元组序列:

records = [
    ('foo', 1, 2),
    ('bar', 'hello'),
    ('foo', 3, 4),
]

def do_foo(x, y):
    print('foo', x, y)

def do_bar(s):
    print('bar', s)

for tag, *args in records:
    if tag == 'foo':
        do_foo(*args)
    elif tag == 'bar':
        do_bar(*args)

星号解压语法在字符串操作的时候也会很有用,比如字符串的分割。

代码示例:

>>> line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false'
>>> uname, *fields, homedir, sh = line.split(':')
>>> uname
'nobody'
>>> homedir
'/var/empty'
>>> sh
'/usr/bin/false'
>>>

有时候,你想解压一些元素后丢弃它们,你不能简单就使用 * , 但是你可以使用一个普通的废弃名称,比如 _ 或者 ign (ignore)。

代码示例:

>>> record = ('ACME', 50, 123.45, (12, 18, 2012))
>>> name, *_, (*_, year) = record
>>> name
'ACME'
>>> year
2012
>>>

在很多函数式语言中,星号解压语法跟列表处理有许多相似之处。比如,如果你有一个列表, 你可以很容易的将它分割成前后两部分:

>>> items = [1, 10, 7, 4, 5, 9]
>>> head, *tail = items
>>> head
1
>>> tail
[10, 7, 4, 5, 9]
>>>

如果你够聪明的话,还能用这种分割语法去巧妙的实现递归算法。比如:

>>> def sum(items):
...     head, *tail = items
...     return head + sum(tail) if tail else head
...
>>> sum(items)
36
>>>

然后,由于语言层面的限制,递归并不是 Python 擅长的。 因此,最后那个递归演示仅仅是个好奇的探索罢了,对这个不要太认真了。

1.3 保留最后 N 个元素

问题

在迭代操作或者其他操作的时候,怎样只保留最后有限几个元素的历史记录?

解决方案

保留有限历史记录正是 collections.deque 大显身手的时候。比如,下面的代码在多行上面做简单的文本匹配, 并返回匹配所在行的最后N行:

from collections import deque


def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
        previous_lines.append(line)

# Example use on a file
if __name__ == '__main__':
    with open(r'../../cookbook/somefile.txt') as f:
        for line, prevlines in search(f, 'python', 5):
            for pline in prevlines:
                print(pline, end='')
            print(line, end='')
            print('-' * 20)

讨论

我们在写查询元素的代码时,通常会使用包含 yield 表达式的生成器函数,也就是我们上面示例代码中的那样。 这样可以将搜索过程代码和使用搜索结果代码解耦。如果你还不清楚什么是生成器,请参看 4.3 节。

使用 deque(maxlen=N) 构造函数会新建一个固定大小的队列。当新的元素加入并且这个队列已满的时候, 最老的元素会自动被移除掉。

代码示例:

>>> q = deque(maxlen=3)
>>> q.append(1)
>>> q.append(2)
>>> q.append(3)
>>> q
deque([1, 2, 3], maxlen=3)
>>> q.append(4)
>>> q
deque([2, 3, 4], maxlen=3)
>>> q.append(5)
>>> q
deque([3, 4, 5], maxlen=3)

尽管你也可以手动在一个列表上实现这一的操作(比如增加、删除等等)。但是这里的队列方案会更加优雅并且运行得更快些。

更一般的, deque 类可以被用在任何你只需要一个简单队列数据结构的场合。 如果你不设置最大队列大小,那么就会得到一个无限大小队列,你可以在队列的两端执行添加和弹出元素的操作。

代码示例:

>>> q = deque()
>>> q.append(1)
>>> q.append(2)
>>> q.append(3)
>>> q
deque([1, 2, 3])
>>> q.appendleft(4)
>>> q
deque([4, 1, 2, 3])
>>> q.pop()
3
>>> q
deque([4, 1, 2])
>>> q.popleft()
4

在队列两端插入或删除元素时间复杂度都是 O(1) ,而在列表的开头插入或删除元素的时间复杂度为 O(N)

1.4 查找最大或最小的 N 个元素

问题

怎样从一个集合中获得最大或者最小的 N 个元素列表?

解决方案