1. IEnumerable 与 IEnumerator
IEnumerable枚举器接口的重要性,说一万句话都不过分。几乎所有集合都实现了这个接口,Linq的核心也依赖于这个万能的接口。C语言的for循环写得心烦,foreach就顺畅了很多。
IEnumerable只有一个抽象方法:GetEnumerator(),而IEnumerator又是一个迭代器接口,真正实现了访问集合的功能。 IEnumerator只有一个Current属性,两个方法MoveNext和Reset。
有个小问题,只搞一个访问器接口不就得了?为什么要两个看起来很容易混淆的接口呢?一个叫枚举器,另一个叫迭代器。因为
(1) 实现IEnumerator是个脏活累活,白白加了两个方法一个属性,而且这两个方法其实并不好实现(后面会提到)。
(2) 它需要维护初始状态,知道如何Move,如何结束,同时返回迭代的上一个状态,这些并不容易。
(3)迭代显然是非线程安全的,每次IEnumerable都会生成新的IEnumerator,从而形成多个互相不影响的迭代过程。在迭代过程中,不能修改迭代集合,否则不安全。
所以只要你实现了IEnumerable,编译器就会帮我们实现IEnumerator。何况绝大多数情况都是从现有集合继承,一般不需要重写MoveNext和Reset方法。 IEnumerable当然还有泛型实现,这个不影响问题的讨论。
IEnumerable让我们想起了单向链表,C中需要一个指针域保存下一个节点的信息,那么在IEnumerable中,谁帮忙保存了这个信息?这个过程占用内存么? 是占在程序区,还是堆区?
反正你知道,如果在某个过程中再调用一次IEnumerable的枚举,枚举其实是从头开始的。所以,每次枚举,生成的都是新的IEnumerator对象。
但是,IEnumerable也有它致命的缺点,它没法后退(确实是单向的),没法跳跃(只能一个一个的跳过去),而且实现Reset并不容易。想想看, 如果是一个实例集合的枚举过程,直接返回到第0个元素就可以了,但是如果这个IEnumerable是漫长的访问链条,想找到最初的根,难度如何之大!所 以CLR via C#的作者告诉你,其实很多Reset的实现根本就是谎言,知道有这个东西就行了,不要太过依赖它。
2. foreach和MoveNext有区别吗
IEnumerable最大的特点是将访问的过程,交给了被访问者本身控制。在C语言中数组控制权是外部完全掌握的。这个接口却在内部封装访问了的过程,进一步提升了封装性。比如下面:
public class People //定义一个简单的实体类 { public string Name { get; set; } public int Age { get; set; } } public class PersonList { private readonly List<People> peoples; public PersonList() //为了方便,构造过程中插入元素 { peoples = new List<People>(); for (int i = 0; i < 5; i++) { peoples.Add(new People {Name = "P" + i, Age = 30 + i}); } } public int OldAge = 31;
public IEnumerable<People> OlderPeoples
{
get
{
foreach (People people in _people)
{
if (people.Age > OldAge)
yield return people;
}
yield break;
}
} }
IEnumerable的本质是状态机,它有点类似事件的概念,将实现丢到外面,实现代码间的穿越(想想星际穿越),实现了访问链,这是Linq的基础。酷炫的迭代器,真的有我们想象的那么简单么?
在C语言中,数组就是数组,实实在在的内存空间,那么IEnumerable到底是什么意思呢?如果它由一个真正的集合(比如List)实现,那么没问题,也是实实在在的内存,可是如果是上述的例子呢?筛选返回的yield return 只返回了元素,但可能并不存在这个实际的集合,想到这里,你肯定明白,这个接口代表了一种“状态”。如果你将简单的枚举器的yield return 反编译后看,会发现其实是一组switch-case, 编译器在后台为我们做了大量的工作。
生成的新迭代器,如果不MoveNext,其实Current是空的,这是为什么呢?为什么一个迭代器不直接指向头元素呢?(留给大家思考,我也没想清楚)
foreach每次往前移动一格,到头了就停止。 等等,你确定它到头了就会停止么?我们来做个试验:
public IEnumerable<People> Peoples1 //直接返回集合 { get { return peoples; } } public IEnumerable<People> Peoples2 //没有yield break; { get { foreach (var people in peoples) { yield return people; } } } public IEnumerable<People> Peoples3 //包含yield break; { get { foreach (var people in peoples) { yield return people; } yield break; } }
以上三种,是我们常见的方式,注意第三种实现,ReSharper把yield break标成灰色(重复),真的是没有必要的么?
我们再写下如下的测试代码,peopleList集合只有五个元素,但尝试去MoveNext 8次。可以把peopleList.Peoples1换成2,3,分别测试。
var peopleList = new PeopleList(); //内部构造函数插入了五个元素 IEnumerator<People> e1 = peopleList.Peoples1.GetEnumerator(); if (e1.Current == null) { Console.WriteLine("迭代器生成后Current为空"); } int i = 0; while (i<8) //总共只有五个元素,看看一直迭代会发生什么效果 { e1.MoveNext(); if (e1.Current == null) { Console.WriteLine("迭代第{0}次后为空",i); } else { Console.WriteLine("迭代第{0}次后为{1}",i,e1.Current.Name); } i++; }
//PeopleEnumerable1 (直接返回集合) 迭代器生成后Current为空 迭代第0次后为P0 迭代第1次后为P1 迭代第2次后为P2 迭代第3次后为P3 迭代第4次后为P4 迭代第5次后为空 迭代第6次后为空 迭代第7次后为空 //PeopleEnumerable2 (不加yield break) 迭代器生成后Current为空 迭代第0次后为P0 迭代第1次后为P1 迭代第2次后为P2 迭代第3次后为P3 迭代第4次后为P4 迭代第5次后为P4 迭代第6次后为P4 迭代第7次后为P4 //PeopleEnumerable2 (加上yield break) 迭代器生成后Current为空 迭代第0次后为P0 迭代第1次后为P1 迭代第2次后为P2 迭代第3次后为P3 迭代第4次后为P4 迭代第5次后为P4 迭代第6次后为P4 迭代第7次后为P4