Program into Your Language, Not in It——《代码大全》。如何深入一门语言去编程?我认为有三步:熟悉它;知道它的局限性;扩展它。如何熟悉?不必说,自然是看书看资料,多用多写。如何知晓其局限性?这步我们只能通过对比了,任何事物都有其自身的局限性,没有任何东西是完美的(除了上帝哈)。在这里,我用C#与C++做对比,尝试勾勒出C#与C++一些观念上的不同。如何扩展?这点我正在尝试
。
C++的STL
STL包含六大组件:容器(Containers)、迭代器(Iterators)、算法(Algorithms)、仿函数(functors)、配接器(Adapters)、配置器(Allocators)。容器通过配置器取得数据存储空间,算法通过迭代器来存取容器的内容,仿函数协助算法完成不同的操作策略,配接器用来修饰或套接仿函数。这一整套配合,可以使我们完全掌控数据在存储器上的增删查改。(在这里我很想画一张图出来,但是我找了很久,实在找不到好的工具,有没有哪位同学能分享一些好的画示意图之类的工具呢?)
容器
STL中,最常用的容器要算vector、list、map、set这四种了。C#中,对应的容器分别是:List、LinkedList、Dictionary、HashSet。单看容器,其实它只是抽象出了一些逻辑结构,根据不同的逻辑需要,在存储器上反应出不同的物理存储结构。这点C++和C#的抽象没有什么不同,当然,其实现上,很不相同。这点通过代码的书写,就可以略窥一斑。
C++代码如下:
{
cout << *iterSet << endl;
++iterSet;
}
}
C#代码如下:
in set)
{
Console.WriteLine(item);
}
}
}
}
C++并没有内置的foreach语句(貌似新的标准中有?),所以它通过迭代器来帮助它来完成迭代。而C#就非常方便了,在语法级别完成了这个功能。从写法上我们可以看到,c++的迭代器看上去是一个指针,是一个可以做自增操作的指针。c#迭代出的每个item则是当前存放的数据。
迭代器
STL中的迭代器有五种:输入迭代器(Input Iterator)、输出迭代器(Output Iterator)、前向迭代器(Forward Iterator)、双向迭代器(Bidirectional Iterator)、随机存取迭代器(Random Access Iterator)。C#中,没有相对应的迭代器概念。毕竟迭代器就是一个智能指针,而C#却不支持指针(unsafe另算哈)。
输入迭代器,只能一次一个向前读取元素,并且只能读取该元素一次。如果我们复制一份输入迭代器,副本输入迭代器和原来的输入迭代器分别向前读取一个元素,那么他们可能会遍历到不同的值。以istream_iterator为列,代码如下:
while (iterBegin != iterEnd)
{
cout << *iterBegin << endl;
++iterBegin;
}
}
输出迭代器,与输入迭代器相反,它的作用是将元素值一个个写入,所以只能作为左值。以ostream_iterator为列,代码如下:
int i = 0; i < 10; ++i)
{
*iter = i;
}
}
前向迭代器,是输入、输入迭代器的结合,但是却没能用有输入、输入迭代器的全部功能,真心觉得这个迭代器很尴尬。前向迭代器提取值的时候,要确保它是有效的迭代器(比如到了序列尾端),而输出迭代器却不用(输出迭代器不提供比较操作,无需检查是否达到尾端)。我没见过比较有代表性的前向迭代器,所以给不出代码示例(囧…)。
双向迭代器,在前向迭代器的基础上增加了回头遍历的能力。写法上来说,就是提供了自减操作。最合适的列子非链表的迭代器莫属了。如下:
;
}
}
随机迭代器,在双向迭代器的基础上增加了随机存取能力。写法上来说,就是提供了加减法操作,还提供了大小比较操作(除了这个迭代器,其他都没有大小比较,所以一般判断迭代器是否结尾,是用 == 或者 != 来判断)。最合适的列子就是vector的迭代器了。如下:
int>::const_iterator iter(vec.begin());
cout << *(iter + 4) << endl;
至此,我们对C++迭代器有些基本的了解了。现在让我们探索一下这背后到底是怎么实现的。我们知道C++的STL是依靠模板(Template)来实现的,用C#的词来描述就是泛型(Generic)。一个迭代器,其实是一个类型,一个遵循了一系列潜规则的类型。按照被潜的程度,分成两种:自娱自乐,狼狈为奸。如果只是想自娱自乐的话,那么很简单,只要像下面这样既可:
while (begin != end)
{
cout << begin->value() << endl;
++begin;
}
}
上述代码中,我们完全依赖自己的双手,通过重载*、->、 ++、==、!=等操作符,实现了自己的行为上类似迭代器的迭代器。但是我们仅能自娱自乐而已,不能融入STL的大家庭。我们无法复用STL原有的轮子,也无法将我们的轮子完美的放进STL(只需重载一下全局的!=操作符,可以使用STL的find)。我们为了实现这个迭代器,将容器的元素类型(ListItem)暴露了,而且还暴露了ListItem的内部实现细节(重载++操作符,用到了ptr->next()),明显不科学啊!所以一般迭代器都是相应的容器的设计者实现的,内嵌在容器中。
如果想让我们的迭代器能融入到STL中,那么,我们就必须为我们的迭代器实现五个“接口”,一个表示迭代器的类型iterator_category,一个表示值类型value_type,一个表示两个迭代器之间的距离类型difference_type,一个表示迭代器的指针pointer,一个表示迭代器的解引用reference。这五个“接口”,就是STL关于迭代器的潜规则。比如一个定义良好的iterator_category可以帮助我们的迭代器在使用distance(),advance()之类的函数时,有更高的效率。为了帮助我们定义自己的迭代器,STL有一个结构,只要我们继承即可,在VS中输入iterator然后转到定义,即可看到下图:
下面让我们来定义一个可以与STL“狼狈为奸”的迭代器。
int i = 0; i < 10; ++i)
{
vec.push_back(i);
vec.push_back(i + 100);
}
copy(vec.begin(), vec.end(), os);
}
看起来好像没什么区别?其实这里面的区别大了。
STL迭代器的潜规则
让我们先从C#的接口谈起,相信大家对接口这个概念都不陌生。能被foreach遍历的类型,必须继承了IEnumerable这个接口。能够做比较运算的类型,必须继承了IComparable接口。接口,是个非常强的概念。它与类的虚函数相比,最大的不同就是:继承该接口后,必须要实现接口中的方法,而虚函数则不必。有了这层语法上的限制,那么我们在C#中定义我们的泛型方法时,就可以强制一些规定,便于我们操作传进来的泛型实参。比如我们要定义一个排序算法。既然是排序,首先就要求元素能够被比较,如果不能比较,那就只能呵呵了…下面贴代码。
base;
FunnyQuickSort(list, right, start - 1);
FunnyQuickSort(list, start + 1, left);
}
通过用where这个方法,规定元素T的类型必须是可比较的,来限制用户程序员传入的类型。使用接口约束,不紧能方便我们在方法中做基于一定限制的逻辑操作,还能在需要的时候确定方法的返回类型以及一些类型的限定信息。可能后面这两个优点在C#中还不怎么明显,如果见识到STL为了这么简单的操作饶了多么大的弯,我们就能深刻体会到这种好处了。假设我们有这么个需求:需要返回一个两个迭代器(迭代器一个在前一个在后,能形成半开区间)间元素中的最大值。大家会怎么写这个方法?用C#,方法大概是这样:
我们可以返回一个T或者IComparable<T>。这是由于传进来的值的类型已经确定了是T。这是与C++最大的不同。在C++中,如果为通用的STL迭代器写一个算法,大概如下:
这时候,我们应该返回什么类型?我们甚至不知道这个迭代器指向的是什么类型!我们知道指向的值可以用*begin来表示,但是我们要怎么让编译器知道?这里可没有C#的委托限制,无法用委托来确定类型。大家想到怎么确定迭代器指向的类型了吗?没错,是利用函数模板的参数推到机制。我们要在里面再嵌入一层函数,即可得到迭代器指向的元素的类型。最后看起来代码像这样:
现在还剩一个问题了,最上层的Max应该返回什么类型?有两个方法可以确定:我们再为Max加一个泛型参数指明返回类型;再在模板中加一个插件。前一种很简单,不过不是很优雅,略过不谈。如何在模板中加插件?还记得我们前面所说的潜规则么?我们定义了五个“接口”,其中有一个是表示值类型的value_type。答案就在这!我们通过一个第三方的提取工具:iterator_traits,来获得返回的值类型。代码如下:
将迭代器的类型传入iterator_traits中,提取出定义该迭代器的时候定义的元素类型。这下所有的问题都解决了。是不是很优雅?当然,不要跟C#比。下面我们测试一下我们的代码:
int i = 0; i < 10; ++i)
{
vec.push_back(i);
}
vec.push_back(100);
vec.push_back(1);
cout << Max(vec.begin(), vec.end()) << endl;
}
我们看到,由于C++少了接口这个语法级的概念,实现一个这么简单的方法,都要绕这么大一个弯!而且在调试代码的时候,模板出错的报错提示,是出了名的多!一个小问题可以引起大段的错误提示。其实上面的代码很容易出错,如果迭代器指向的类型无法做逻辑比较怎么办?比如将一个map的迭代器传进来,大家可以试一试!而C#从语法层面上将这些弊端都规避掉了。如果不符合接口限制,将会有优雅的提示信息。返回类型可以直接返回接口类型。我真心感觉吊炸天!如果不与C++比较,我是无法知道C#为我做了这么多工作!想到STL是上世纪的杰作,我很佩服当时为了解决这些问题而探索出的traits方法。而C#作为后来者,明显吸收了很多C++的精华。
通过容器和迭代器这两个组件,我们可以看到STL的构思之巧妙,通过一系列的潜规则,来实现了通用的目的。我们也看到了C#的方便之处。到目前的比较为止,C#的表现非常不错。但是,C#会一直这么拽吗?有句话说的好:“你不拽我们还可以做朋友…”。以我现在还和C#是朋友的现状来看……
我本来想以一篇来概括STL的,写了快10小时,发现还仅是写到第二个组件!现在只剩下一句话:欲知后事如何,请听下回分解!
总结
C#作为后来者,在语法层面上规避了很多STL遇到的问题。而STL的构思之妙,略窥一二。
参考资料
- 侯捷.STL源码剖析.武汉:华中科技大学出版社,2013
- Nicolai M. Josuttis.C++标准库.侯捷译.武汉:华中科技大学出版社,2011
- Jeffrey Richter. CLR via C#.周靖译.北京:清华大学出版社,2011