1.1探索之旅从输入网址开始
我们的探索之旅从在浏览器中输入网址开始。网址,准确来说应该叫 URL。常见的网址开头有:http:、ftp:、file:、mailto:等等。
之所以有各种各样的 URL,是因为尽管我们通常是使用浏览器来访问 Web 服务器的,但实际上浏览器并不只有这一个功能,它也可以用来在 FTP 服务器上下载和上传文件,同时也具备电子邮件客户端的功能。可以说,浏览器是一个具备多种客户端功能的综合性客户端软件,因此它需要一些东西来判断应该使用其中哪种功能来访问相应的数据,而各种不同的 URL 就是用来干这个的,比如访问 Web 服务器时用 “http:”,而访问 FTP 服务器时用“ftp:”等。
下图列举了仙子阿互联网中常见的几种 URL, 根据访问目标的不同, URL 的写法也会不同。例如在访问 Web 服务器和 FTP 服务器时,URL 中会包含服务器的域名和要访问的文件的路径名等,而发邮件的 URL 则包含收件人的邮件地址。此外,根据需要, URL 中还会包含用户名、密码、服务器端口号等信息。
1.2.浏览器先要解析 URL
浏览器要做的第一步工作就是对 URL 进行解析,从而生成发送给 Web 服务器的请求消息。URL 的格式会随着协议的不同而不同,因此下面我们以访问 Web 服务器的情况为例进行讲解。
根据 HTTP 的规格, URL 包含图 1.2(a)中的几种元素。当对 URL 进行解析时,首先需要按照图 1.2(a)的格式将其中的各个元素拆分出来,例如图 1.2(b)中的 URL 会拆分成图 1.2(c)的样子。然后,通过拆分出来的这些元素,我们就能够明白 URL 代表的含义。例如,我们来看拆分结果图1.2(c),其中包含 Web 服务器名称 www.lab.glasscom.com,以及文件的路径名 /dir1/file1.html,因此我们就能够明白,图1.2(b)中的 URL 表示要访问 www.lab.glasscom.com 这个 Web 服务器上路径名为 /dir/file1.html 的文件,也就是位于 /dir/ 目录下的 file1.html 这个文件(图1.3)。
1.3. HTTP 的基本思路
解析完 URL 之后,我们就知道应该要访问的目标在哪里了。接下来,浏览器会使用 HTTP 协议来访问 Web 服务器,不过在介绍这一环节之前,我们先来讲一讲 HTTP 协议到底是怎么回事。
HTTP 协议定义了客户端和服务器之间交互的消息内容和步骤,其基本思路非常简单。首先,客户端会想服务器发送请求消息(图1.4)。请求消息中包含的内容是“对什么”和“进行怎样的操作”两个部分。其中相当于“对什么” 的部分称为 URI。一般来说, URI 的内容是一个存放网页数据的文件或者是一个 CGI 程序的文件名,例如 “/dir1/file1.html”“/dir1/program1.cgi”等等。不过,URI 不仅限于此,也可以直接使用 “http:” 开头的 URL 来作为 URI。换句话说就是,这里可以写各种访问目标,而这些访问目标统称为 URI。
相当于接下来“进行怎样的操作”的部分称为方法。方法表示需要让 Web 服务器完成怎样的工作,其中典型的例子包括读取 URI 表示的数据、将客户端输入的数据发送给 URI 表示的程序等。表 1.1 列举了主要的方法,通过这张表大家应该能够理解通过方法可以执行怎样的操作。