彻底搞懂 Python 生成器:从入门到"yield"深处
别再只会用 for 循环了!深入理解 Python 迭代器 (核心原理 + 实战)
摘要:你是否以为
for i in list就是 Python 遍历的全部?其实背后隐藏着一套强大的“迭代器协议”。今天,我们不仅要看懂它,还要学会用它写出更省内存、更优雅的代码。
在日常写代码时,for 循环可以说是我们最亲密的伙伴了。无论是遍历列表、读取文件,还是处理数据,for 循环无处不在。
但是,你有没有想过:
- 为什么列表可以用
for循环,整数却不行? - 为什么处理大文件时,直接
read()会爆内存,而逐行读取却没事? yield关键字到底施展了什么魔法?
如果你对这些问题的答案模棱两可,那么这篇文章就是为你准备的。今天,我们要彻底搞懂 Python 迭代器(Iterator)。
01 可迭代对象 vs 迭代器
很多初学者容易混淆这两个概念。我们先来做个区分。
在 Python 中,有两个重要的抽象基类:Iterable(可迭代对象)和 Iterator(迭代器)。
📦 可迭代对象 (Iterable)
定义:实现了 __iter__() 方法的对象。
特点:它可以被迭代,但它本身不一定能记住迭代的位置。
常见例子:list, tuple, dict, set, str。
🏃 迭代器 (Iterator)
定义:同时实现了 __iter__() 和 __next__() 方法的对象。
特点:它是一个带状态的对象,它记得当前读到哪里了。调用 next() 会返回下一个值,直到耗尽。
核心:惰性计算(用多少取多少,不一次性加载到内存)。
🔍 代码验证
我们可以用 collections.abc 来检测:
1 | from collections.abc import Iterable, Iterator |
💡 形象比喻:
- 可迭代对象 就像一本书,里面有很多页。
- 迭代器 就像你的手指(或书签),它指着当前这一页。你每读一页(
next),手指就往后挪一页。书本身不会动,动的是手指。
02 迭代器协议:幕后发生了什么?
当你写下这行代码时:
1 | for item in [1, 2, 3]: |
Python 解释器在幕后实际上执行了以下逻辑(伪代码):
1 | # 1. 获取迭代器 |
关键点:
iter():调用对象的__iter__方法。next():调用迭代器的__next__方法。StopIteration:当没有更多元素时,__next__必须抛出这个异常,通知循环结束。
03 手写一个迭代器类
为了加深理解,我们不用 list,而是自己实现一个斐波那契数列的迭代器。
1 | class Fibonacci: |
思考:如果用列表存储前 100 万个斐波那契数,内存会怎样?用迭代器呢?
- 列表:一次性生成 100 万个整数,占用大量内存。
- 迭代器:每次只算一个数,用完即丢,内存占用几乎不变。这就是惰性求值的威力。
04 生成器:迭代器的极简写法
手写 __iter__ 和 __next__ 太麻烦了,还要维护状态。Python 提供了生成器(Generator),它是实现迭代器最优雅的方式。
🛠 使用 yield
只要函数里包含 yield,它就不再是普通函数,而是一个生成器函数。
1 | def fibonacci_gen(max_count): |
yield 的魔法:
它保存了函数的执行上下文(局部变量、指令指针)。每次调用 next(),函数从 yield 处“醒来”,继续执行,直到遇到下一个 yield。
🚀 生成器表达式
类似列表推导式,但用圆括号 ()。
1 | # 列表推导式:立即生成所有数据 |
建议:在处理大数据流时,优先使用生成器表达式,节省内存!
05 神器 itertools 标准库
Python 有一个专门处理迭代器的标准库 itertools,里面全是高效工具。不要重复造轮子!
1. 无限迭代器
1 | import itertools |
2. 有限迭代器处理
1 | # 链式连接多个可迭代对象 |
3. 分组
1 | data = ['A', 'A', 'B', 'B', 'B', 'C'] |
06 常见坑与最佳实践
⚠️ 坑 1:迭代器只能消费一次
1 | gen = (x for x in range(3)) |
解决:如果需要多次使用,请转为列表 list(),或者重新创建生成器。
⚠️ 坑 2:在遍历中修改列表
1 | nums = [1, 2, 3, 4, 5] |
解决:使用列表推导式生成新列表,或遍历副本 nums[:]。
✅ 最佳实践
- 处理大文件:使用
for line in open('file.txt'),不要readlines()。 - 数据管道:利用生成器串联数据处理步骤,类似 Unix 管道。
- 内存敏感:只要不需要随机访问,优先用生成器代替列表。
07 总结
今天我们深入了 Python 迭代器的核心:
- 区分概念:
Iterable是容器,Iterator是游标。 - 理解协议:
iter()获取迭代器,next()取值,StopIteration结束。 - 掌握工具:
yield是写迭代器的捷径,itertools是进阶利器。 - 核心优势:省内存、惰性计算、代码优雅。
掌握迭代器,标志着你的 Python 水平从“写脚本”迈向了“工程化”。希望你在接下来的代码中,能更多地运用迭代思维!
👇 互动话题
你在工作中遇到过因为列表太大导致内存溢出的情况吗?你是怎么解决的?欢迎在评论区留言分享!
喜欢这篇文章吗?点个「在看」,分享给更多小伙伴!👇






