关于web页面请求的历程,这是一个老生常谈的话题了,在很多面经中都看到过类似的问题:“从输入URL到页面加载发生了什么”。最近看完了《计算机网络–自顶向下方法》,对这个问题有了更全面的理解。

以书中的图示为例,下图展示了要讨论的场景:一位学生Bob将他的个人电脑与学校的以太网交换机相连,请求一个Web页面(比如www.google.com的主页)。

DHCP、UDP、IP和以太网

Bob首先打开他的个人电脑,然后用一根网线连接到学校的以太网交换机,交换机又与学校的路由器相连。学校的这台路由器与一个ISP连接,本例中ISP为comcast.net。在本例中,comcast.net为学校提供了DNS服务;所以,DNS服务驻留在Comcast网络中而不是在学校网络中。同时我们也假设DHCP服务器运行在路由器中。

最初当Bob将其电脑与网络连接时,Bob的电脑是没有IP地址的,没有IP地址他就不能做任何事情(例如下载一个Web网页)。所以,Bob的电脑采取的第一个网络相关的动作是运行DHCP(Dynamic Host Configuration Protocol)协议,以从本地DHCP服务器获得一个IP地址以及其他信息。

1)Bob电脑的操作系统生成一个DHCP请求报文,并将这个报文放入具有目的端口67(DHCP服务器)和源端口68(DHCP客户)的UDP报文段(User Datagram Protocol),由于Bob的电脑此时还没有IP地址,该UDP报文段被放在一个具有广播IP目的地址(255.255.255.255)和源IP地址0.0.0.0的IP数据报中。

2)包含DHCP请求报文的IP数据报被放在以太网帧中。该以太网帧具有目的MAC地址FF:FF:FF:FF:FF:FF,使该帧将广播到与交换机连接的所有设备(如果顺利的话会广播到DHCP服务器);该帧的源MAC地址是Bob电脑的MAC地址00:16:D3:23:68:8A。

3)包含DHCP请求的广播以太网帧是第一个由Bob电脑发送到以太网交换机的帧。该交换机在所有的出端口广播此帧,包括连接到路由器的端口。

4)路由器在它MAC地址为00:22:6B:45:1F:1B的端口上接收到此广播以太网帧(此帧包含了DHCP请求),并从该以太网帧中抽取出了IP数据报。该数据报的广播IP目的地址指示了这个IP数据报应该由此节点的高层协议处理,因此该数据报的载荷(一个UDP报文段)被分解向上到达UDP,DHCP请求报文从此UDP报文段中抽取出来。此时DHCP服务器收到了DHCP请求报文。

5)我们假设运行在路由器中的DHCP服务器能够以CIDR(Classless Inter-Domain Routing)块68.85.2.0/24分配IP地址。所以在本例中,在学校内使用的所有IP地址都在Comcast的地址块中。我们假设DHCP服务器分配IP地址68.85.2.101给Bob的电脑。DHCP服务器生成包含这个IP地址以及DNS服务器的IP地址(68.87.71.226)、默认网关路由器的IP地址(68.85.2.1)和子网掩码(68.85.2.0/24)的一个DHCP ACK报文。该DHCP报文被放入一个UDP报文段中,UDP报文段被放入一个IP数据报中,IP数据报再被放入一个以太网帧中。这个以太网帧的源MAC地址是路由器连到归属网络的接口的MAC地址(00:22:6B:45:1F:1B),目的MAC地址是Bob电脑的MAC地址(00:16:D3:23:68:8A)。

6)包含DHCP ACK的以太网帧由路由器发送给交换机。因为交换机是自学习的,并且先前从Bob的电脑收到过以太网帧(包含DHCP请求的),所以该交换机知道寻址到00:16:D3:23:68:8A的帧从通向Bob电脑的输出端口转发。

7)Bob的电脑接收到包含DHCP ACK的以太网帧,从该帧中抽取出IP数据报,从IP数据报中抽取出UDP报文段,从UDP报文段抽取DHCP ACK报文。Bob的DHCP客户则记录下它的IP地址和它的DNS服务器的地址。它还在IP转发表中安装默认网关的地址。Bob的电脑将向该默认网关发送目的地址为其子网68.85.2.0/24之外的所有数据报。此时,Bob的电脑已经初始化好它的网络组件,并准备开始处理Web网页的获取。

DNS 和 ARP

当Bob将www.google.com的URL键入其Web浏览器时,他开启了一长串事件,这将导致谷歌主页最终显示在其Web浏览器上。Bob的Web浏览器通过生成一个TCP套接字开始了该过程,套接字用于向www.google.com发送HTTP请求。为了生成该套接字,Bob的电脑需要知道www.google.com的IP地址。这将使用DNS协议(Domain Name System)提供这种名字到IP地址的转换服务。

8)Bob电脑的操作系统生成一个DNS查询报文,将字符串www.google.com放入DNS报文的问题段中。该DNS报文则放置在一个具有53号(DNS服务器)目的端口的UDP报文段中。该UDP报文段则被放入具有IP目的地址68.87.71.226(在第5步中DHCP ACK返回的DNS服务器地址)和源IP地址68.85.2.101的IP数据报中。

9)Bob的电脑将包含DNS请求报文的数据报放入一个以太网帧中。该帧将发送(在链路层寻址)到Bob学校网络中的网关路由器。然而,即使Bob的电脑经过上述第5步中的DHCP ACK报文知道了学校网关路由器的IP地址(68.82.2.1),但仍不知道该网关路由器的MAC地址。为了获得该网关路由器的MAC地址,Bob的电脑将需要使用ARP协议(Address Resolution Protocol)。

10)Bob的电脑生成一个具有目的IP地址68.85.2.1(默认网关)的ARP查询报文,将该ARP报文放置在一个具有广播目的地址(FF:FF:FF:FF:FF:FF)的以太网帧中,并向交换机发送该以太网帧,交换机将该帧交付给所有连接的设备,包括网关路由器。

11)网关路由器在连接学校网络的接口上接收到包含该ARP查询报文的帧,发现在ARP报文中目标IP地址68.85.2.1匹配其接口的IP地址。网关路由器因此准备一个ARP回答,指示它的MAC地址00:22:6B:45:1F:1B对应IP地址68.85.2.1。它将ARP回答放在一个以太网帧中,其目的地址为00:16:D3:23:68:8A(Bob的电脑),并向交换机发送该帧,再由交换机将帧交付给Bob的电脑。

12)Bob的电脑接收包含ARP回答报文的帧,并从ARP回答报文中抽取网关路由器的MAC地址(00:22:6B:45:1F:1B)。

13)Bob的电脑现在能够使包含DNS查询的以太网帧寻址到网关路由器的MAC地址。值得注意的是,在该帧中的IP数据报具有IP目的地址68.87.71.226(DNS服务器),而该帧具有目的地址00:22:6B:45:1F:1B(网关路由器)。Bob的电脑向交换机发送该帧,交换机将该帧交付给网关路由器。

域内路由选择到DNS服务器

14)网关路由器接收该帧并抽取包含DNS查询的IP数据报。路由器查找该数据报的目的地址(68.87.71.226),并根据其转发表决定该数据报应当发送到Comcast网络中最左边的路由器。IP数据报放置在链路层帧中,该链路将学校路由器连接到最左边Comcast路由器,并且该帧经由这条链路发送。

15)在Comcast网络中最左边的路由器接收到该帧,抽取IP数据报,检查该数据报的目的地址(68.87.71.226),并根据其转发表决定出接口,经过该接口朝着DNS服务器转发数据报,而转发表已根据Comcast的域内协议(如RIP、OSPF或IS-IS)以及因特网的域间协议BGP所填写。

16)最终包含DNS查询的IP数据报到达了DNS服务器。DNS服务器抽取出DNS查询报文,在它的DNS数据库中查找名字www.google.com,找到包含对应www.google.com的IP地址(64.233.169.105)的DNS源记录。(假设它当前缓存在DNS服务器中,缓存数据源于google.com的权威DNS服务器)。该DNS服务器形成了一个包含这种主机名到IP地址映射的DNS回答报文,将该DNS回答报文放入UDP报文段中,该报文段放入寻址到Bob电脑(68.85.2.101)的IP数据报中。该数据报将通过Comcast网络反向转发到学校的路由器,并从这里经过以太网交换机到Bob的电脑。

17)Bob的电脑从DNS报文抽取出服务器www.google.com的IP地址。最终,在大量工作后,Bob的电脑此时终于准备接触www.google.com服务器。

Web客户-服务器交互:TCP 和 HTTP

18)Bob的电脑已经有了www.google.com的IP地址,它能够生成TCP套接字,该套接字将用于向www.google.com发送HTTP GET报文。当Bob的电脑生成TCP套接字时,在Bob电脑中的TCP必须首先与www.google.com中的TCP执行三次握手。Bob的电脑首先生成一个具有目的端口80(针对HTTP)的TCP SYN(TCP Synchronize Sequence Numbers)报文段,将该TCP报文段放在具有目的IP地址64.233.169.105(www.google.com)的IP数据报中,将该数据报放置在MAC地址为00:22:6B:45:1F:1B(网关路由器)的帧中,并向交换机发送该帧。

19)在学校网络、Comcast网络和谷歌网络中的路由器朝着www.google.com转发包含TCP SYN的数据报,使用每台路由器中的转发表,支配分组经Comcast和谷歌网络的域间链路转发的路由器转发表项,是由BGP(Border Gateway Protocol)协议决定的。

20)最终,包含TCP SYN的数据报到达www.google.com。从数据报抽取出TCP SYN报文并分解到与端口80相联系的欢迎套接字。对于谷歌HTTP服务器和Bob电脑之间的TCP连接生成一个连接套接字。产生一个TCP SYNACK 报文段,将其放入向Bob电脑寻址的一个数据报中,最后放入链路层帧中。

21)包含TCP SYNACK报文段的数据报通过谷歌、Comcast和学校网络,最终到达Bob电脑的以太网卡。数据报在操作系统中分解到步骤18生成的TCP套接字,从而进入连接状态。

22)借助于Bob电脑上的套接字,现在准备向www.google.com发送字节了,Bob的浏览器生成包含要获取的URL的HTTP GET报文。HTTP GET报文则写入套接字,其中GET报文成为一个TCP报文段的载荷。该TCP报文段放置进一个数据报中,并交付到www.google.com,如前面步骤18~20所述。

23)在www.google.com的HTTP服务器从TCP套接字读取HTTP GET报文,生成一个HTTP响应报文,将请求的Web页内容放入HTTP响应体中,并将报文发送进TCP套接字中。

24)包含HTTP回答报文的数据报通过谷歌、Comcast和学校网络转发,到达Bob的电脑。Bob的Web浏览器程序从套接字读取HTTP响应,从HTTP响应体中抽取Web网页的html,并最终显示出Web网页。

上面的流程看起来已经尽可能详尽,但其中忽略了一些可能的附加协议。例如,运行在学校网关路由器中的NAT(Network Address Translation),电脑到学校网络的无线接入,对报文段或数据报加密的安全协议,网络管理协议。以及将会在公共因特网中遇到的其他情况(Web缓存,DNS等级体系)。