2.1 Web应用程序使用的通信协议——HTTP协议

当今Web程序的开发技术处于百家争鸣的状态,有ASP.NET、PHP、JSP、Perl、AJAX等。无论Web技术在未来如何发展,理解Web应用程序之间通信的基本协议相当重要,因为它让我们理解了Web应用程序的内部工作。本节将对HTTP协议进行详细的实例讲解。

2.1.1 什么是超文本传输协议HTTP

超文本传输协议(HTTP, HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议,所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。1960年,美国人Ted Nelson构思了一种通过计算机处理文本信息的方法,并称之为超文本(Hypertext),这成为HTTP超文本传输协议标准架构的发展根基。Ted Nelson组织协调万维网协会(World Wide Web Consortium)和互联网工程工作小组(Internet Engineering Task Force)共同合作研究,最终发布了一系列的RFC,其中著名的RFC 2616定义了HTTP 1.1。

HTTP协议的主要特点可概括如下。

(1)支持客户/服务器模式。

(2)简单快速。客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。

(3)灵活。HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

(4)无连接。无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。

(5)无状态。HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态一方面意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大;另一方面,在服务器不需要先前信息时它的应答就较快。

HTTP在TCP/IP协议栈中的位置如图2-1所示。

图2-1 HTTP在TCP/IP协议栈中的位置

2.1.2 统一资源定位器——URL

HTTP URL(URL是一种特殊类型的URI,包含了用于查找某个资源的足够的信息)的格式如下:

http://host[":" port][abs_path]

其中,http表示要通过HTTP协议来定位网络资源;host表示合法的Internet主机域名或者IP地址;port指定一个端口号,为空则使用默认端口80; abs_path指定请求资源的URI;如果URL中没有给出abs_path,那么当它作为请求URI时,必须以“/”的形式给出,通常这个工作浏览器自动帮我们完成。例如:

1.输入:www.guet.edu.cn
    浏览器自动转换成:http://www.guet.edu.cn/
    2.http://192.168.0.116:8080/index.jsp

2.1.3 HTTP请求

HTTP请求由三部分组成,分别是请求行、请求报头、请求正文。

1.请求行

请求行以一个方法符号开头,以空格分开,后面跟着请求的URI和协议的版本,格式如下:

Method Request-URI HTTP-Version CRLF

其中,Method表示请求方法;Request-URI是一个统一资源标识符;HTTP-Version表示请求的HTTP协议版本;CRLF表示回车和换行(除了作为结尾的CRLF外,不允许出现单独的CR或LF字符)。

请求方法(所有方法全为大写)有多种,各个方法的解释如下。

GET         //请求获取Request-URI所标识的资源
    POST        //在Request-URI所标识的资源后附加新的数据
    HEAD        //请求获取由Request-URI所标识的资源的响应消息报头
    PUT         //请求服务器存储一个资源,并用Request-URI作为其标识
    DELETE      //请求服务器删除Request-URI所标识的资源
    TRACE       //请求服务器回送收到的请求信息,主要用于测试或诊断
    CONNECT     //保留将来使用
    OPTIONS     //请求查询服务器的性能,或者查询与资源相关的选项和需求

部分方法应用举例如下。

GET方法:在浏览器的地址栏中以输入网址的方式访问网页时,浏览器采用GET方法向服务器获取资源,例如:

GET /form.html HTTP/1.1(CRLF)

POST方法要求被请求服务器接受附在请求后面的数据,常用于提交表单,例如:

POST /reg.jsp HTTP/ (CRLF)
    Accept:image/gif, image/x-xbit, ... (CRLF)
    ...
    HOST:www.guet.edu.cn (CRLF)
    Content-Length:22 (CRLF)
    Connection:Keep-Alive (CRLF)
    Cache-Control:no-cache (CRLF)
    (CRLF)         //该CRLF表示消息报头已经结束,在此之前为消息报头
    user=jeffrey&pwd=1234  //此行以下为提交的数据

HEAD方法与GET方法几乎是一样的,对于HEAD请求的回应部分来说,它的HTTP头部中包含的信息与通过GET请求所得到的信息是相同的。利用这个方法,不必传输整个资源内容,就可以得到Request-URI所标识的资源的信息。该方法常用于测试超链接的有效性,是否可以访问,以及最近是否更新。

2.请求报头

当我们打开一个网页时,浏览器要向网站服务器发送一个HTTP请求报头,然后网站服务器根据HTTP请求报头的内容生成当次请求的内容发送给浏览器。你明白HTTP请求报头的具体含义吗?下面先看某一次HTTP请求报头的具体内容。

Accept-Language: zh-cn, zh; q=0.5
    Accept-Charset: GB2312, utf-8; q=0.7, *; q=0.7
    Accept: text/html, application/xhtml+xml, application/xml; q=0.9,
  */*; q=0.8
    Accept-Encoding: gzip, deflate
    User-Agent: Mozilla/5.0 (compatible; 域名)
    Host: 域名
    Connection: Keep-Alive

根据以上HTTP请求内容的先后顺序一条条地解读。

① Accept-Language: zh-cn, zh; q=0.5。

意思:浏览器支持的语言分别是中文和简体中文,优先支持简体中文。

详解:

Accept-Language表示浏览器所支持的语言类型。

zh-cn表示简体中文;zh表示中文。

q是权重系数,范围0≤q≤1, q值越大,请求越倾向于获得其“; ”之前的类型表示的内容;若没有指定q值,则默认为1;若被赋值为0,则用于提醒服务器哪些是浏览器不接受的内容类型。

② Accept-Charset: GB2312, utf-8; q=0.7, *; q=0.7。

意思:浏览器支持的字符编码分别是GB2312、utf-8和任意字符,优先顺序是GB2312、utf-8、*。

详解:

Accept-Charset告诉Web服务器,浏览器可以接受哪些字符编码。

GB2312是中国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,又称GB0,由中国国家标准总局发布,1981年5月1日开始实施。GB2312编码通行于中国大陆,新加坡等地也采用此编码。

utf-8是Unicode的一种变长字符编码,又称万国码,由Ken Thompson于1992年创建,现在已经标准化为RFC 3629。

*表示任意字符编码,虽然q都是等于0.7,但明确指定的GB2312、utf-8比*具有更高的优先级。

③ Accept: text/html, application/xhtml+xml, application/xml; q=0.9, */*; q=0.8。

意思:浏览器支持的MIME类型分别是text/html、application/xhtml+xml、application/xml和 */*,优先顺序是它们从左到右的排列顺序。

详解:

Accept表示浏览器支持的MIME类型。

MIME的英文全称是Multipurpose Internet Mail Extensions(多功能Internet邮件扩充服务),它是一种多用途网际邮件扩充协议,在1992年最早应用于电子邮件系统,但后来也应用于浏览器。

text/html、application/xhtml+xml、application/xml都是MIME类型,也可以称为媒体类型和内容类型,斜杠前面的是type(类型),斜杠后面的是subtype(子类型); type指定大的范围,subtype是type中范围更明确的类型,即大类中的小类。

Text:用于标准化地表示的文本信息,文本消息可以是多种字符集和或者多种格式的。

text/html表示html文档。

Application:用于传输应用程序数据或者二进制数据。

application/xhtml+xml表示xhtml文档。

application/xml表示xml文档。

④ Accept-Encoding: gzip, deflate。

意思:浏览器支持的压缩编码是gzip和deflate。

详解:

Accept-Encoding表示浏览器有能力解码的编码类型。

gzip是GNU zip的缩写,它是一个GNU自由软件的文件压缩程序,也经常用来表示gzip这种文件格式。

deflate是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法。

⑤ User-Agent: Mozilla/5.0(compatible;域名)。

意思:使用的用户代理是Mozilla/5.0(compatible;域名)。

详解:

User-Agent(用户代理),简称UA,它是一个特殊字符串头,使得服务器能够识别客户端使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

Mozilla/5.0:Mozilla是浏览器名,版本是5.0。

compatible(兼容的)表示平台是兼容模式。

⑥ Host: 域名。

Host表示请求的服务器网址。

⑦ Connection: Keep-Alive。

Connection表示客户端与服务连接类型。

Keep-Alive表示持久连接。

3.请求正文

请求报头和请求正文之间是一个空行,这个空行非常重要,它表示请求报头已经结束,接下来的是请求正文。请求正文中可以包含客户提交的查询字符串信息:

user=jeffrey&pwd=1234

在上例的HTTP请求中,请求的正文只有一行内容。当然,在实际应用中,HTTP请求正文可以包含更多的内容。

2.1.4 HTTP响应

在接收和解释请求消息后,服务器返回一个HTTP响应消息。HTTP响应也是由3个部分组成,分别是状态行、响应报头、响应正文。

1.状态行

状态行格式如下:

HTTP-Version Status-Code Reason-Phrase CRLF

其中,HTTP-Version表示服务器HTTP协议的版本;Status-Code表示服务器发回的响应状态代码;Reason-Phrase表示状态代码的文本描述。

状态代码由三位数字组成,第一个数字定义了响应的类别,且有5种可能取值。

1xx:指示信息——表示请求已接收,继续处理

2xx:成功——表示请求已被成功接收、理解、接受。

3xx:重定向——要完成请求必须进行更进一步的操作。

4xx:客户端错误——请求有语法错误或请求无法实现。

5xx:服务器端错误——服务器未能实现合法的请求。

常见状态代码、状态描述、说明。

200 OK                   //客户端请求成功
    400 Bad Request           //客户端请求有语法错误,不能被服务器理解
    401 Unauthorized         //请求未经授权,这个状态代码必须和WWW-Authenticate报
                            头域一起使用
    403 Forbidden            //服务器收到请求,但是拒绝提供服务
    404 Not Found             //请求资源不存在,eg:输入了错误的URL
    500 Internal Server Error  //服务器发生不可预期的错误
    503 Server Unavailable    //服务器当前不能处理客户端的请求,一段时间后可能恢复正常
                          eg:HTTP/1.1200 OK(CRLF)

2.响应报头

理论上所有的响应报头信息都应该是回应请求报头的,但是服务器端为了效率、安全,还有其他方面的考虑,会添加相对应的响应报头信息。例如,访问请求oschina首页,响应消息如下:

Response Headers        view source
    Cache-Control:must-revalidate, no-cache, private
    Connection:keep-alive
    Content-Encoding:gzip
    Content-Type:text/html; charset=utf-8
    Date:Sun,21 Sep 2014 06:18:20 GMT
    Expires:Sun,1 Jan 2000 01:00:00 GMT
    Pragma:no-cache
    Server:Tengine/1.4.6
    Transfer-Encoding:chunked
    Vary:Accept-Encoding

从上例可以看出以下内容。

① Cache-Control:must-revalidate, no-cache, private:这个值告诉客户端,服务器端不希望客户端缓存资源,在下次请求资源时,必须要重新请求服务器,不能从缓存副本中获取资源。

Cache-Control是响应报头中很重要的信息,当客户端请求报头中包含Cache-Control:max-age=0请求,明确表示不会缓存服务器资源时,Cache-Control作为回应信息,通常会返回no-cache,意思就是说,“不缓存就不缓存呗”;当客户端在请求报头中没有包含Cache-Control时,服务器端往往会视不同的资源采用不同的缓存策略。例如,oschina在缓存图片资源时的策略就是Cache-Control:max-age=86400,这个意思是,从当前时间开始,在86400秒的时间内,客户端可以直接从缓存副本中读取资源,而不需要向服务器请求。Pragma:no-cache的含义与Cache-Control等同。

② Connection:keep-alive:这个字段作为回应客户端的Connection:keep-alive,告诉客户端服务器的tcp连接也是一个长连接,客户端可以继续使用这个tcp连接发送HTTP请求。

③ Content-Encoding:gzip:告诉客户端,服务器端发送的资源是采用gzip编码的,客户端看到这个信息后,应该采用gzip对资源进行解码。

④ Content-Type:text/html; charset=utf-8:告诉客户端资源文件的类型,还有字符编码,客户端通过utf-8对资源进行解码,然后对资源进行html解析。通常我们会看到有些网站是乱码的,往往就是服务器端没有返回正确的编码。

⑤ Date:Sun, 21 Sep 2014 06:18:20 GMT,这个是服务器端发送资源时的服务器时间。HTTP协议中发送的时间都是GMT的,这主要是解决在互联网上不同时区在相互请求资源的时候时间混乱问题。

⑥ Expires:Sun, 1 Jan 2000 01:00:00 GMT:这个响应报头也是跟缓存有关的,告诉客户端在这个时间前,可以直接访问缓存副本。很显然这个值会存在问题,因为客户端和服务器的时间不一定都是相同的,如果时间不同就会导致问题。所以这个响应报头是没有Cache-Control:max-age=***这个响应报头准确的,因为max-age=date中的date是个相对时间,不仅更好理解,也更准确。

⑦ Server:Tengine/1.4.6:这个是指服务器和相对应的版本,只是告诉客户端服务器信息,没有更多的意思。

⑧ Transfer-Encoding:chunked,这个响应报头告诉客户端,服务器发送的资源的方式是分块发送的。一般分块发送的资源都是服务器动态生成的,在发送时还不知道发送资源的大小,所以采用分块发送,每一块都是独立的,独立的块都能标示自己的长度,最后一块是0长度的,当客户端读到这个0长度的块时,就可以确定资源已经传输完了。

⑨ Vary:Accept-Encoding:它告诉缓存服务器,缓存压缩文件和非压缩文件两个版本。现在这个字段用处并不大,因为现在的浏览器都是支持压缩的。

上面讲述了访问oschina时,服务器端发送回来的响应报头信息,但是并不全面。下面这些也是常常会出现的,也很重要。

① Content-leng:资源长度,如果服务器响应报头中没有Transfer-Encoding:chunked,也就是说如果资源不是分块传输的,那么这个字段就是必需的,因为如果服务器端不告诉客户端资源的长度,那么在Connection:keep-alive,也就是说客户端与服务器端是长连接时,客户端就无法确定资源在什么时候结束。所以这个响应报头对于静态资源是必需的。

② Content-Range:它告诉客户端,这次发送的是资源的哪部门字节,通常值为bytes 100-1000/5000。

③ Cookies:用于标识客户端,跟踪客户端,存储用户信息、用户行为。

④ Location:服务器端将资源的真实目的放在这个响应报头中,引导客户端重定向到这个地址去,如果服务器返回302,那么这个值是必需的,通常这个值是一个完整的url:www. oschina.net。

⑤ WWW-Authenticate:这个字段主要用在服务器资源是有访问限制的,通常客户端在访问服务器资源时,服务器会返回401,要求客户端发送认证信息,同时会告诉客户端如何将认证信息编码。这个响应报头的值就是存储服务器告诉客户端编码的方式,通常是Basic-64编码。

3.响应正文

响应正文就是服务器返回的资源的内容。

2.1.5 HTTP消息报头

HTTP消息由客户端到服务器的请求和服务器到客户端的响应组成。请求消息和响应消息都是由开始行(对于请求消息,开始行就是请求行;对于响应消息,开始行就是状态行)、消息报头(可选)、空行(只有CRLF的行)、消息正文(可选)组成。

HTTP消息报头包括普通报头、请求报头、响应报头和实体报头。

每一个报头域都是由名字+“:”+空格+值 组成,消息报头域的名字是大小写无关的。

1.普通报头

在普通报头中,有少数报头域用于所有的请求和响应消息,但并不用于被传输的实体,只用于传输的消息。

eg:

Cache-Control用于指定缓存指令,缓存指令是单向的(响应中出现的缓存指令在请求中未必会出现),且是独立的(一个消息的缓存指令不会影响另一个消息处理的缓存机制), HTTP1.0使用的类似的报头域为Pragma。

请求时的缓存指令包括no-cache(用于指示请求或响应消息不能缓存)、no-store、max-age、max-stale、min-fresh、only-if-cached。

响应时的缓存指令包括public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage。

eg:为了指示IE浏览器(客户端)不要缓存页面,服务器端的JSP程序可以编写如下:

response.sehHeader("Cache-Control", "no-cache");
    //response.setHeader("Pragma", "no-cache");作用相当于上述代码,通常两者合用

这句代码将在发送的响应消息中设置普通报头域:Cache-Control:no-cache。

Date普通报头域表示消息产生的日期和时间。

Connection普通报头域允许发送指定连接的选项。例如,指定连接是连续,或者指定close选项,通知服务器,在响应完成后,关闭连接。

2.请求报头

请求报头允许客户端向服务器端传递请求的附加信息以及客户端自身的信息。

常用的请求报头有以下几种。

Accept请求报头域用于指定客户端接受哪些类型的信息。eg:Accept:image/gif,表明客户端希望接受gif图像格式的资源;Accept:text/html,表明客户端希望接受html文本。

① Accept-Charset。

Accept-Charset请求报头域用于指定客户端接受的字符集。eg:Accept-Charset:iso-8859-1, gb2312。如果在请求消息中没有设置这个域,默认是任何字符集都可以接受的。

② Accept-Encoding。

Accept-Encoding请求报头域类似于Accept,但是它是用于指定可接受的内容编码。eg:Accept-Encoding:gzip.deflate。如果请求消息中没有设置这个域,服务器假定客户端对各种内容编码都可以接受。

③ Accept-Language。

Accept-Language请求报头域类似于Accept,但是它是用于指定一种自然语言。eg:Accept-Language:zh-cn。如果请求消息中没有设置这个报头域,服务器假定客户端对各种语言都可以接受。

④ Authorization。

Authorization请求报头域主要用于证明客户端有权查看某个资源。当浏览器访问一个页面时,如果收到服务器的响应代码为401(未授权),可以发送一个包含Authorization请求报头域的请求,要求服务器对其进行验证。

⑤ Host(发送请求时,该报头域是必需的)。

Host请求报头域主要用于指定被请求资源的Internet主机和端口号,它通常从HTTP URL中提取出来的,例如我们在浏览器中输入:http://www.guet.edu.cn/index.html,浏览器发送的请求消息中,就会包含Host请求报头域,如下:

Host: www.guet.edu.cn

此处使用默认端口号80,若指定了端口号,则变成Host:www.guet.edu.cn:指定端口号。

⑥ User-Agent。

我们上网登录论坛的时候,往往会看到一些欢迎信息,其中列出了你的操作系统的名称和版本,你所使用的浏览器的名称和版本,这往往让很多人感到很神奇,实际上,服务器应用程序就是从User-Agent这个请求报头域中获取到这些信息。User-Agent请求报头域允许客户端将它的操作系统、浏览器和其他属性告诉服务器。不过,这个报头域不是必需的,如果我们自己编写一个浏览器,不使用User-Agent请求报头域,那么服务器端就无法得知我们的信息了。

请求报头举例。

GET /form.html HTTP/1.1 (CRLF)
    Accept:image/gif, image/x-xbitmap, image/jpeg, application/
  x-shockwave-fl ash, application/vnd.ms-excel, application/vnd.ms-
  powerpoint, application/msword, */* (CRLF)
    Accept-Language:zh-cn (CRLF)
    Accept-Encoding:gzip, deflate (CRLF)
    If-Modified-Since:Wed,05 Jan 2015 11:21:25 GMT (CRLF)
    If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)
    User-Agent:Mozilla/4.0(compatible; MSIE6.0; Windows NT 5.0) (CRLF)
    Host:www.guet.edu.cn (CRLF)
    Connection:Keep-Alive (CRLF)
   (CRLF)

3.响应报头

响应报头允许服务器传递不能放在状态行中的附加响应信息,以及关于服务器的信息和对Request-URI所标识的资源进行下一步访问的信息。

常用的响应报头有以下几种。

① Location。

Location响应报头域用于重定向接受者到一个新的位置。Location响应报头域常用在更换域名的时候。

② Server。

Server响应报头域包含了服务器用来处理请求的软件信息,与User-Agent请求报头域是相对应的。下面是Server响应报头域的一个例子。

Server: Apache-Coyote/1.1

③ WWW-Authenticate。

WWW-Authenticate响应报头域必须被包含在401(未授权的)响应消息中,客户端收到401响应消息时,并发送Authorization报头域请求服务器对其进行验证时,服务端响应报头就包含该报头域。

eg:WWW-Authenticate:Basic realm="Basic Auth Test! " //可以看出服务器对请求资源采用的是基本验证机制。

4.实体报头

请求和响应消息都可以传送一个实体。一个实体由实体报头域和实体正文组成,但并不是说实体报头域和实体正文要在一起发送,可以只发送实体报头域。实体报头定义了关于实体正文(eg:有无实体正文)和请求所标识的资源的元信息。

常用的实体报头有以下几种。

① Content-Encoding。

Content-Encoding实体报头域被用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容的编码,因而要获得Content-Type报头域中所引用的媒体类型,必须采用相应的解码机制。Content-Encoding这样用于记录文档的压缩方法,例如:

Content-Encoding:gzip

② Content-Language。

Content-Language实体报头域描述了资源所用的自然语言。没有设置该域则认为实体内容将提供给所有的语言阅读者,例如:

Content-Language:da

③ Content-Length。

Content-Length实体报头域用于指明实体正文的长度,以字节方式存储的十进制数字来表示。

④ Content-Type。

Content-Type实体报头域用于指明发送给接收者的实体正文的媒体类型。

Content-Type:text/html; charset=ISO-8859-1
    Content-Type:text/html; charset=GB2312

⑤ Last-Modified。

Last-Modified实体报头域用于指示资源的最后修改日期和时间。

⑥ Expires。

Expires实体报头域给出响应过期的日期和时间。为了让代理服务器或浏览器在一段时间以后更新缓存中(再次访问曾访问过的页面时,直接从缓存中加载,缩短响应时间和降低服务器负载)的页面,我们可以使用Expires实体报头域指定页面过期的时间,例如:

Expires:Thu,15 Sep 2015 16:23:12 GMT

HTTP1.1的客户端和缓存必须将其他非法的日期格式(包括0)看作已经过期。例如,为了让浏览器不要缓存页面,我们也可以利用Expires实体报头域,设置为0, jsp中程序如下:

response.setDateHeader("Expires", "0");

2.1.6 利用Telnet观察HTTP协议的通信过程

实验目的及原理如下。

利用MS的Telnet工具,通过手动输入HTTP请求信息的方式,向服务器发出请求,服务器接收、解释和接受请求后,会返回一个响应,该响应会在Telnet窗口上显示出来,从而从感性上加深对HTTP协议的通信过程的认识。

实验步骤如下。

1.打开Telnet

步骤1 单击电脑桌面左下角的“开始”按钮。

步骤2 在输入框中输入“cmd”。

步骤3 单击程序cmd.exe。

步骤4 在显示的界面中输入“telnet”,按回车键,进入telnet操作界面,如图2-2所示。

图2-2 打开Telnet操作界面

步骤5 在操作界面中输入“set localecho”,按下回车键,打开telnet回显功能,如图2-3所示。

图2-3 打开Telnet回显功能

2.连接服务器并发送请求

open www.guet.edu.cn 80  //注意端口号不能省略
      HEAD /index.asp HTTP/1.0
      Host:www.guet.edu.cn
    /*我们可以变换请求方法,请求桂林电子主页内容,输入消息如下*/
      open www.guet.edu.cn 80
      GET /index.asp HTTP/1.0  //请求资源的内容
      Host:www.guet.edu.cn
    open www.sina.com.cn 80  //在命令提示符号下直接输入telnet www.
  sina.com.cn 80
        HEAD /index.asp HTTP/1.0
        Host:www.sina.com.cn

3.实验结果

第一个请求信息得到的响应如下:

HTTP/1.1200 OK                   //请求成功
    Server: Microsoft-IIS/5.0         //web服务器
    Date: Thu,08 Mar 201507:17:51 GMT
    Connection: Keep-Alive
    Content-Length: 23330
    Content-Type: text/html
    Expries: Thu,08 Mar 2015 07:16:51 GMT
    Set-Cookies: ASPSESSIONIDQAQBQQQB=BEJCDGKADEDJKLKKAJEOIMMH; path=/
    Cache-control: private
    //资源内容省略

第二个请求信息得到的响应是如下:

HTTP/1.0404 Not Found       //请求失败
    Date: Thu, 08 Mar 2015 07:50:50 GMT
    Server: Apache/2.0.54 <Unix>
    Last-Modified: Thu, 30 Nov 2015 11:35:41 GMT
    ETag: "6277a-415-e7c76980"
    Accept-Ranges: bytes
    X-Powered-By: mod_xlayout_jh/0.0.1vhs.markII.remix
    Vary: Accept-Encoding
    Content-Type: text/html
    X-Cache: MISS from zjm152-78.sina.com.cn
    Via: 1.0 zjm152-78.sina.com.cn:80<squid/2.6.STABLES-20061207>
    X-Cache: MISS from th-143.sina.com.cn
    Connection: close
    失去了跟主机的连接
    按任意键继续...

4.注意事项

① 出现输入错误,则请求不会成功。

② 报头域不分大小写。

③ 更深一步了解HTTP协议,可以查看RFC2616,在http://www.letf.org/rfc上找到该文件。

④ 开发后台程序必须掌握HTTP协议。

2.1.7 HTTP协议相关技术补充

1.基础

高层协议有:文件传输协议FTP、电子邮件传输协议SMTP、域名系统服务DNS、网络新闻传输协议NNTP和HTTP协议等。

中介有3种:代理(Proxy)、网关(Gateway)和通道(Tunnel)。一个代理根据URI的绝对格式来接受请求,重写全部或部分消息,通过URI的标识把已格式化过的请求发送到服务器。网关是一个接收代理,作为一些其他服务器的上层,并且如果必需的话,可以把请求翻译给下层的服务器协议。一个通道作为不改变消息的两个连接之间的中继点。当通信需要通过一个中介(如防火墙等)或者是中介不能识别消息的内容时,通道经常被使用。

代理(Proxy):一个中间程序,它可以充当一个服务器,也可以充当一个客户机,为其他客户机建立请求。请求是通过可能的翻译在内部或经过传递到其他的服务器中。一个代理在发送请求信息之前,必须解释并且如果可能重写它。代理经常作为通过防火墙的客户机端的门户,另外还可以作为一个帮助应用来通过协议处理没有被用户代理完成的请求。

网关(Gateway):一个作为其他服务器中间媒介的服务器。与代理不同的是,网关接受请求就好像对被请求的资源来说它就是源服务器;发出请求的客户机并没有意识到它在同网关打交道。

网关经常作为通过防火墙的服务器端的门户,另外还可以作为一个协议翻译器以便存取那些存储在非HTTP系统中的资源。

通道(Tunnel):作为两个连接中继的中介程序。一旦激活,通道便被认为不属于HTTP通信,尽管通道可能是被一个HTTP请求初始化的。当被中继的连接两端关闭时,通道便消失。当一个门户(Portal)必须存在或中介(Intermediary)不能解释中继的通信时通道被经常使用。

2.协议分析的优势——HTTP分析器检测网络攻击

以模块化的方式对高层协议进行分析处理,将是未来入侵检测的方向。HTTP及其代理的常用端口80、3128和8080在network部分用port标签进行了规定。

3.HTTP协议Content Lenth限制漏洞导致拒绝服务攻击

使用POST方法时,可以设置Content Lenth来定义需要传送的数据长度,如Content Lenth:999999999,在传送完成前,内存不会释放,攻击者可以利用这个缺陷,连续向Web服务器发送垃圾数据直至Web服务器内存耗尽。这种攻击方法基本不会留下痕迹。

4.利用HTTP协议的特性进行拒绝服务攻击的一些构思

服务器端忙于处理攻击者伪造的TCP连接请求而无暇理睬客户的正常请求(毕竟客户端的正常请求比率非常之小),此时从正常客户的角度看来,服务器失去响应,这种情况我们称为服务器端受到了SYN Flood攻击(SYN洪水攻击)。

而Smurf、TearDrop等是利用ICMP报文来Flood和IP碎片攻击的。本文用“正常连接”的方法来产生拒绝服务攻击。

19端口在早期已经有人用来做Chargen攻击了,即Chargen_Denial_of_Service,但是他们用的方法是在两台Chargen服务器之间产生UDP连接,让服务器处理过多信息而DOWN掉,那么,干掉一台Web服务器的条件就必须有两个:一是有Chargen服务,二是有HTTP服务。

方法:攻击者伪造源IP给N台Chargen发送连接请求(Connect), Chargen接收到连接后就会返回每秒72字节的字符流(实际上根据网络实际情况,这个速度更快)给服务器。

5.HTTP指纹识别技术

HTTP指纹识别的原理大致上也是相同的:记录不同服务器对HTTP协议执行中的微小差别进行识别。HTTP指纹识别比TCP/IP堆栈指纹识别复杂许多,理由是定制HTTP服务器的配置文件、增加插件或组件使得更改HTTP的响应信息变得很容易,这样使得识别变得困难;然而定制TCP/IP堆栈的行为需要对核心层进行修改,所以就容易识别。

要让服务器返回不同的Banner信息的设置是很简单的,像Apache这样的开放源代码的HTTP服务器,用户可以在源代码里修改Banner信息,然后重启HTTP服务就生效了;对于没有公开源代码的HTTP服务器,如微软的IIS或者是Netscape,可以在存放Banner信息的Dll文件中修改,另外一种模糊Banner信息的方法是使用插件。

常用测试请求如下。

① HEAD/HTTP/1.0发送基本的HTTP请求。

② DELETE/HTTP/1.0发送那些不被允许的请求,如Delete请求。

③ GET/HTTP/3.0发送一个非法版本的HTTP协议请求。

④ GET/JUNK/1.0发送一个不正确规格的HTTP协议请求。

HTTP指纹识别工具Httprint,它通过运用统计学原理,组合模糊的逻辑学技术,能很有效地确定HTTP服务器的类型。它可以被用来收集和分析不同HTTP服务器产生的签名。

6.其他

为了提高浏览器在被用户使用时的性能,现代浏览器还支持并发的访问方式,浏览一个网页时同时建立多个连接,以迅速获得一个网页上的多个图标,这样能更快速完成整个网页的传输。

HTTP 1.1中提供了这种持续连接的方式,而下一代HTTP协议——HTTP-NG更增加了有关会话控制、丰富的内容协商等方式的支持,来提供更高效率的连接。