图解HTTP - Githubissues

第二章简单的HTTP协议

HTTP协议和TCP/IP协议族内的其他众多的协议相同，用于客户端和服务器之间的通信。
请求访问文本或图像等资源的一端称为客户端，而提供资源响应的一端称为服务器端。

HTTP协议规定，请求从客户端发出，最后服务器端响应该请求并返回。换句话说，肯定是先从客户端开始建立通信的，服务器端在没有接收到请求之前不会发送响应。

一个请求报文的内容：

GET /index.htm HTTP/1.1
Host: hackr.jp

GET表示请求访问服务器的类型，称为方法（method）。随后的字符串/index.htm指明了请求访问的资源对象，也叫做请求URI（request-URI）。最后的HTTP/1.1，即HTTP的版本号，用来提示客户端使用的HTTP协议功能。

综合来看，这段请求内容的意思是：请求访问某台HTTP服务器上的/index.htm页面资源。

响应报文：

HTTP/1.1 200 OK
Date: Tue, 10 Jul 2012 06:50:15 GMT
Content-Length: 362
Content-Type: text/html

<html>
……

HTTP/1.1表示服务器对应的HTTP版本。紧挨着的200 OK表示请求的处理结果的状态码（status code）和原因短语（reason-phrase）。下一行显示了创建响应的日期时间，是首部字段（header field）内的一个属性。接着以一空行分隔，之后的内容称为资源实体的主体（entity body）。

HTTP是一种不保存状态，即无状态（stateless）协议。HTTP协议自身不对请求和响应之间的通信状态进行保存。也就是说在HTTP这个级别，协议对于发送过的请求或响应都不做持久化处理。

这是为了更快地处理大量事务，确保协议的可伸缩性，而特意把HTTP协议设计成如此简单的。

HTTP/1.1虽然是无状态协议，但为了实现期望的保持状态功能，于是引入了Cookie技术。

HTTP协议使用URI定位互联网上的资源。正是因为URI的特定功能，在互联网上任意位置的资源都能访问到。

向请求URI指定的资源发送请求报文时，采用称为方法的命令。方法的作用在于，可以指定请求的资源按期望产生某种行为。

GET方法用来请求访问已被URI识别的资源。
POST方法用来传输实体的主体。
PUT方法用来传输文件。
HEAD方法获得报文首部
DELETE方法用来删除文件
OPTIONS方法用来查询针对请求URI指定的资源支持的方法
TRACE方法是让Web服务器端将之前的请求通信环回给客户端的方法。（追踪路径）
CONNECT方法要求在与代理服务器通信时建立隧道，实现用隧道协议进行TCP通信。

持久连接节省通信量

持久连接的特点是，只要任意一端没有明确提出断开连接，则保持TCP连接状态。

持久连接的好处在于减少了TCP连接的重复建立和断开所造成的额外开销，减轻了服务器端的负载。另外，减少开销的那部分时间，使HTTP请求和响应能够更早地结束，这样Web页面的显示速度也就相应提高了。

在HTTP/1.1中，所有的连接默认都是持久连接。

持久连接使得多数请求以管线化（pipelining）方式发送成为可能。从前发送请求后需等待并收到响应，才能发送下一个请求。管线化技术出现后，不用等待响应亦可直接发送下一个请求。

Cookie技术通过在请求和响应报文中写入Cookie信息来控制客户端的状态。

HTTP请求报文和响应报文的内容如下：

①请求报文（没有Cookie信息的状态）

GET /reader/ HTTP/1.1
Host: hackr.jp 
＊首部字段内没有Cookie的相关信息

②响应报文（服务器端生成Cookie信息）

HTTP/1.1200 OK
Date: Thu, 12 Jul 2012 07:12:20 GMT
Server: Apache
＜Set-Cookie: sid=1342077140226724; path=/; expires=Wed, =>
10-Oct-12 07:12:20 GMT＞
Content-Type: text/plain; charset=UTF-8

③请求报文（自动发送保存着的Cookie信息）

GET /image/ HTTP/1.1
Host: hackr.jp
Cookie: sid=1342077140226724

第三章 HTTP报文

用于HTTP协议交互的信息被称为HTTP报文。请求端（客户端）的HTTP报文叫做请求报文，响应端（服务器端）的叫做响应报文。HTTP报文本身是由多行（用CR+LF作换行符）数据构成的字符串文本。

HTTP报文大致可分为报文首部和报文主体两块。两者由最初出现的空行（CR+LF）来划分。通常，并不一定要有报文主体。

请求报文和响应报文的首部内容由以下数据组成：

请求行：包含用于请求的方法，请求URI和HTTP版本。
状态行：包含表明响应结果的状态码，原因短语和HTTP版本。
首部字段：包含表示请求和响应的各种条件和属性的各类首部。一般有4种首部，分别是：通用首部、请求首部、响应首部和实体首部。
其他：可能包含HTTP的RFC里未定义的首部（Cookie等）。

HTTP在传输数据时可以按照数据原貌直接传输，但也可以在传输过程中通过编码提升传输速率。

HTTP协议中采纳了多部分对象集合，发送的一份报文主体内可含有多类型实体。通常是在图片或文本文件等上传时使用。

在HTTP报文中使用多部分对象集合时，需要在首部字段里加上Content-type。

内容协商机制是指客户端和服务器端就响应的资源内容进行交涉，然后提供给客户端最为适合的资源。内容协商会以响应资源的语言、字符集、编码方式等作为判断的基准。

包含在请求报文中的某些首部字段（如下）就是判断的基准。

Accept
Accept-Charset
Accept-Encoding
Accept-Language
Content-Language

第四章 HTTP状态码

状态码的职责是当客户端向服务器端发送请求时，描述返回的请求结果。借助状态码，用户可以知道服务器端是正常处理了请求，还是出现了错误。

1xx：信息性状态码
2xx：成功状态码
3xx：重定向状态码
4xx：客户端错误状态码
5xx：服务器错误状态码

2xx 成功

200 OK 表示从客户端发来的请求在服务器端被正常处理了；
206 Partial Content 表示客户端进行了范围请求，而服务器成功执行了这部分的GET请求。响应报文中包含由Content-Range指定范围的实体内容。

3XX重定向

3XX响应结果表明浏览器需要执行某些特殊的处理以正确处理请求。

301 Moved Permanently：永久性重定向。该状态码表示请求的资源已被分配了新的URI，以后应使用资源现在所指的URI。
302 Found：临时性重定向。该状态码表示请求的资源已被分配了新的URI，希望用户（本次）能使用新的URI访问。
303 See Other：表示由于请求对应的资源存在着另一个URI，应使用GET方法定向获取请求的资源。303状态码明确表示客户端应当采用GET方法获取资源，这点与302状态码有区别。
304 Not Modified：服务器端资源未改变，可直接使用客户端未过期的缓存。
307 Temporary Redirect：与302 Found有着相同的含义，307会遵照浏览器标准，不会从POST变成GET。

4XX客户端错误

4XX的响应结果表明客户端是发生错误的原因所在。

400 Bad Request：该状态码表示请求报文中存在语法错误。
401 Unauthorized：该状态码表示发送的请求需要有通过HTTP认证（BASIC认证、DIGEST认证）的认证信息。
403 Forbidden：表明对请求资源的访问被服务器拒绝了。（未获得文件系统的访问授权，访问权限出现某些问题（从未授权的发送源IP地址试图访问）等列举的情况都可能是发生403的原因。）
404 Not Found：表明服务器上无法找到请求的资源。除此之外，也可以在服务器端拒绝请求且不想说明理由时使用。

5XX服务器错误

5XX的响应结果表明服务器本身发生错误。

500 Internal Server Error：该状态码表明服务器端在执行请求时发生了错误。也有可能是Web应用存在的bug或某些临时的故障。
503 Service Unavailable：表明服务器暂时处于超负载或正在进行停机维护，现在无法处理请求。

第五章与HTTP协作的web服务器

即使物理层面只有一台服务器，但只要使用虚拟主机的功能，则可以假想已具有多台服务器。

在互联网上，域名通过DNS服务映射到IP地址（域名解析）之后访问目标网站。可见，当请求发送到服务器时，已经是以IP地址形式访问了。

所以，如果一台服务器内托管了www.tricorder.jp和www.hackr.jp这两个域名，当收到请求时就需要弄清楚究竟要访问哪个域名。

在相同的IP地址下，由于虚拟主机可以寄存多个不同主机名和域名的Web网站，因此在发送HTTP请求时，必须在Host首部内完整指定主机名或域名的URI。

HTTP通信时，除客户端和服务器以外，还有一些用于通信数据转发的应用程序，例如代理、网关和隧道。它们可以配合服务器工作。

这些应用程序和服务器可以将请求转发给通信线路上的下一站服务器，并且能接收从那台服务器发送的响应再转发给客户端。

代理： 代理是一种有转发功能的应用程序，它扮演了位于服务器和客户端“中间人”的角色，接收由客户端发送的请求并转发给服务器，同时也接收服务器返回的响应并转发给客户端。

代理服务器的基本行为就是接收客户端发送的请求后转发给其他服务器。代理不改变请求URI，会直接发送给前方持有资源的目标服务器。

网关： 网关是转发其他服务器通信数据的服务器，接收从客户端发送来的请求时，它就像自己拥有资源的源服务器一样对请求进行处理。

利用网关能提高通信的安全性，因为可以在客户端与网关之间的通信线路上加密以确保连接的安全。

隧道： 隧道是在相隔甚远的客户端和服务器两者之间进行中转，并保持双方通信连接的应用程序。

隧道可按要求建立起一条与其他服务器的通信线路，届时使用SSL等加密手段进行通信。隧道的目的是确保客户端能与服务器进行安全的通信。

缓存是指代理服务器或客户端本地磁盘内保存的资源副本。利用缓存可减少对源服务器的访问，因此也就节省了通信流量和通信时间。

缓存服务器是代理服务器的一种，并归类在缓存代理类型中。换句话说，当代理转发从服务器返回的响应时，代理服务器将会保存一份资源的副本。

缓存服务器的优势在于利用缓存可避免多次从源服务器转发资源。因此客户端可就近从缓存服务器上获取资源，而源服务器也不必多次处理相同的请求了。

即使存在缓存，也会因为客户端的要求、缓存的有效期等因素，向源服务器确认资源的有效性。若判断缓存失效，缓存服务器将会再次从源服务器上获取“新”资源。

第六章 HTTP首部

HTTP协议的请求和响应报文中必定包含HTTP首部。首部内容为客户端和服务器分别处理请求和响应提供所需要的信息。

HTTP请求报文

在请求中，HTTP报文由方法、URI、HTTP版本、HTTP首部字段等部分构成。

示例：

GET / HTTP/1.1
Host: hackr.jp
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/=>
20100101 Firefox/13.0
Accept: text/html, application/xhtml+xml, application/xml; q=0.9, =>
*/*; q=0.8
Accept-Language: ja,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip, deflate
DNT: 1
Connection: keep-alive
If-Modified-Since: Fri, 31 Aug 2007 02:02:20 GMT
If-None-Match: "45bae1-16a-46d776ac"
Cache-Control: max-age=0

HTTP响应报文

在响应中，HTTP报文由HTTP版本、状态码（数字和原因短语）、HTTP首部字段3部分构成。

示例：

HTTP/1.1304 Not Modified
Date: Thu, 07 Jun 2012 07:21:36 GMT
Server: Apache
Connection: close
Etag: "45bae1-16a-46d776ac"

使用首部字段是为了给浏览器和服务器提供报文主体大小、所使用的语言、认证信息等内容。

HTTP首部字段是由首部字段名和字段值构成的，中间用冒号“:”分隔。

如：Content-Type: text/html。

字段值对应单个HTTP首部字段可以有多个值，如：Keep-Alive: timeout=15, max=100。

若HTTP首部字段重复，根据浏览器内部处理逻辑的不同，结果可能并不一致。

4种HTTP首部字段类型：

通用首部字段
请求首部字段
响应首部字段
实体首部字段

通用首部字段

通用首部字段是指，请求报文和响应报文双方都会使用的首部。

Cache-Control：操作缓存的工作机制；
Connection：控制不再转发给代理的首部字段、管理持久连接；
Date：表明创建HTTP报文的日期和时间；
Pragma：仅作为与HTTP/1.0的向后兼容而定义；
Trailer：事先说明在报文主体后记录了哪些首部字段；
Transfer-Encoding：规定了传输报文主体时采用的编码方式；
Upgrade：用于检测HTTP协议及其他协议是否可使用更高的版本进行通信；
Via：追踪客户端与服务器之间的请求和响应报文的传输路径；
Warning：告知用户一些与缓存相关的问题的警告。

请求首部字段

请求首部字段是从客户端往服务器端发送请求报文中所使用的字段，用于补充请求的附加信息、客户端信息、对响应内容相关的优先级等内容。

Accept：通知服务器用户代理能够处理的媒体类型及媒体类型的相对优先级。可使用type/subtype这种形式，一次指定多种媒体类型；
Accept-Charset：通知服务器用户代理支持的字符集及字符集的相对优先顺序；
Accept-Encoding：告知服务器用户代理支持的内容编码及内容编码的优先级顺序；
Accept-Language：告知服务器用户代理能够处理的自然语言集（指中文或英文等），以及自然语言集的相对优先级；
Authorization：用户代理的认证信息（证书值）；
Expect：告知服务器期望出现的某种特定行为；
From：告知服务器使用用户代理的用户的电子邮件地址；
Host：告知服务器请求的资源所处的互联网主机名和端口号（必须的首部字段）；
If-Match：形如If-xxx这种样式的请求首部字段，都可称为条件请求。服务器接收到附带条件的请求后，只有判断指定条件为真时，才会执行请求。服务器会比对If-Match的字段值和资源的ETag值，仅当两者一致时，才会执行请求；
If-Modified-Since：告知服务器若If-Modified-Since字段值早于资源的更新时间，则希望能处理该请求；
If-None-Match：用于指定If-None-Match字段值的实体标记（ETag）值与请求资源的ETag不一致时，它就告知服务器处理该请求；
If-Range：告知服务器若指定的If-Range字段值（ETag值或者时间）和请求资源的ETag值或时间相一致时，则作为范围请求处理。反之，则返回全体资源；
If-Unmodified-Since：指定的请求资源只有在字段值内指定的日期时间之后，未发生更新的情况下，才能处理请求；
Max-Forwards：通过TRACE方法或OPTIONS方法，发送包含首部字段Max-Forwards的请求时，该字段以十进制整数形式指定可经过的服务器最大数目；
Proxy-Authorization：认证行为发生在客户端与代理之间；
Range：获取部分资源的范围请求；
Referer：告知服务器请求的原始资源的URI；
TE：告知服务器客户端能够处理响应的传输编码方式及相对优先级。它和首部字段Accept-Encoding的功能很相像，但是用于传输编码；
User-Agent：将创建请求的浏览器和用户代理名称等信息传达给服务器。

响应首部字段

响应首部字段是由服务器端向客户端返回响应报文中所使用的字段，用于补充响应的附加信息、服务器信息，以及对客户端的附加要求等信息。

Accept-Ranges：告知客户端服务器是否能处理范围请求，以指定获取服务器端某个部分的资源。
Age：告知客户端源服务器在多久前创建了响应。字段值的单位为秒。
ETag：告知客户端实体标识。它是一种可将资源以字符串形式做唯一性标识的方式。服务器会为每份资源分配对应的ETag值。
Location：将响应接收方引导至某个与请求URI位置不同的资源。基本上，该字段会配合3xx:Redirection的响应，提供重定向的URI。
Proxy-Authenticate：把由代理服务器所要求的认证信息发送给客户端。
Retry-After：告知客户端应该在多久之后再次发送请求。主要配合状态码503 Service Unavailable响应，或3xx Redirect响应一起使用。
Server：告知客户端当前服务器上安装的HTTP服务器应用程序的信息。
Vary：对缓存进行控制。源服务器会向代理服务器传达关于本地缓存使用方法的命令。
WWW-Authenticate：用于HTTP访问认证。

实体首部字段

实体首部字段是包含在请求报文和响应报文中的实体部分所使用的首部，用于补充内容的更新时间等与实体相关的信息。

Allow：用于通知客户端能够支持Request-URI指定资源的所有HTTP方法。
Content-Encoding：告知客户端服务器对实体的主体部分选用的内容编码方式。内容编码是指在不丢失实体信息的前提下所进行的压缩。（gzip、compress、deflate、identity）
Content-Language：告知客户端实体主体使用的自然语言。
Content-Length：表明了实体主体部分的大小（单位是字节）。
Content-Location：给出与报文主体部分相对应的URI，与Location不同，表示的是报文主体返回资源对应的URI。
Content-MD5：是一串由MD5算法生成的值，其目的在于检查报文主体在传输过程中是否保持完整，以及确认传输到达。
Content-Range：针对范围请求，返回响应时使用的首部字段Content-Range，能告知客户端作为响应返回的实体的哪个部分符合范围请求。字段值以字节为单位，表示当前发送部分及整个实体大小。
Content-Type：说明了实体主体内对象的媒体类型。和首部字段Accept一样，字段值用type/subtype形式赋值。
Expires：首部字段Expires会将资源失效的日期告知客户端。
Last-Modified：指明资源最终修改的时间。

为Cookie服务的首部字段

Cookie的工作机制是用户识别及状态管理。Web网站为了管理用户的状态会通过Web浏览器，把一些数据临时写入用户的计算机内。接着当用户访问该Web网站时，可通过通信方式取回之前存放的Cookie。

Set-Cookie

Set-Cookie: status=enable; expires=Tue, 05 Jul 2011 07:26:31 GMT; =>
path=/; domain=.hackr.jp;

expires属性指定浏览器可发送Cookie的有效期。
path属性可用于限制指定Cookie的发送范围的文件目录。
domain属性指定的域名可做到与结尾匹配一致。
secure属性用于限制Web页面仅在HTTPS安全连接时，才可以发送Cookie。
HttpOnly属性是Cookie的扩展功能，它使JavaScript脚本无法获得Cookie，防止跨站脚本攻击（Cross-site scripting,XSS）对Cookie的信息窃取。

Cookie

Cookie: status=enable;

首部字段Cookie会告知服务器，当客户端想获得HTTP状态管理支持时，就会在请求中包含从服务器接收到的Cookie。接收到多个Cookie时，同样可以以多个Cookie形式发送。

其他首部字段

X-Frame-Options：用于控制网站内容在其他Web网站的Frame标签内的显示问题。其主要目的是为了防止点击劫持（clickjacking）攻击。
X-XSS-Protection：属于HTTP响应首部，它是针对跨站脚本攻击（XSS）的一种对策，用于控制浏览器XSS防护机制的开关。
DNT：属于HTTP请求首部，其中DNT是Do Not Track的简称，意为拒绝个人信息被收集，是表示拒绝被精准广告追踪的一种方法。
P3P：属于HTTP响应首部，通过利用P3P（The Platform for Privacy Preferences，在线隐私偏好平台）技术，可以让Web网站上的个人隐私变成一种仅供程序可理解的形式，以达到保护用户隐私的目的。

第七章确保web安全的HTTPS

HTTP的不足：

通信使用明文（不加密），内容可能会被窃听
不验证通信方的身份，因此有可能遭遇伪装
无法证明报文的完整性，所以有可能已遭篡改

加密：

通信的加密：

通信使用明文（不加密），内容可能会被窃听；不验证通信方的身份，因此有可能遭遇伪装；无法证明报文的完整性，所以有可能已遭篡改。

用SSL建立安全通信线路之后，就可以在这条线路上进行HTTP通信了。与SSL组合使用的HTTP被称为HTTPS（HTTP Secure，超文本传输安全协议）或HTTP over SSL。
内容的加密：把HTTP报文里所含的内容进行加密处理。

验证通信方的身份：

HTTP协议的实现本身非常简单，不论是谁发送过来的请求都会返回响应，因此不确认通信方。

虽然使用HTTP协议无法确定通信方，但如果使用SSL则可以。SSL不仅提供加密处理，而且还使用了一种被称为证书的手段，可用于确定方。

完整性：

所谓完整性是指信息的准确度。若无法证明其完整性，通常也就意味着无法判断信息是否准确。

请求或响应在传输途中，遭攻击者拦截并篡改内容的攻击称为中间人攻击（Man-in-the-Middle attack,MITM）。

虽然有使用HTTP协议确定报文完整性的方法，但事实上并不便捷、可靠。其中常用的是MD5和SHA-1等散列值校验的方法，以及用来确认文件的数字签名方法。

HTTP+加密+认证+完整性保护=HTTPS

在HTTP上再加入加密处理和认证等机制，我们把添加了加密及认证机制的HTTP称为HTTPS（HTTP Secure）。

HTTPS并非是应用层的一种新协议。只是HTTP通信接口部分用SSL（Secure Socket Layer）和TLS（Transport Layer Security）协议代替而已。

通常，HTTP直接和TCP通信。当使用SSL时，则演变成先和SSL通信，再由SSL和TCP通信了。简言之，所谓HTTPS，其实就是身披SSL协议这层外壳的HTTP。

SSL采用一种叫做公开密钥加密（Public-key cryptography）的加密处理方式。

HTTPS采用共享密钥加密和公开密钥加密两者并用的混合加密机制。在交换密钥环节使用公开密钥加密方式，之后的建立通信交换报文阶段则使用共享密钥加密方式。

为了保证收到的公开密钥就是原本预想的那台服务器发行的公开密钥，可以使用由数字证书认证机构（CA,Certificate Authority）和其相关机关颁发的公开密钥证书。

第八章确认访问用户身份的认证

HTTP/1.1使用的认证方式如下所示:

BASIC认证（基本认证）
DIGEST认证（摘要认证）
SSL客户端认证
FormBase认证（基于表单认证）

BASIC认证：

当请求的资源需要BASIC认证时，服务器会随状态码401，返回带WWW-Authenticate首部字段的响应。
客户端为了通过BASIC认证，需要将用户ID及密码发送给服务器。发送的字符串内容是由用户ID和密码构成，两者中间以冒号（:）连接后，再经过Base64编码处理。
接收到包含首部字段Authorization请求的服务器，会对认证信息的正确性进行验证。如验证通过，则返回一条包含Request-URI资源的响应。

BASIC认证虽然采用Base64编码方式，但不是加密处理。认证使用上不够便捷灵活，且达不到多数Web网站期望的安全性等级，因此它并不常用。

DIGEST认证：

DIGEST认证同样使用质询/响应的方式（challenge/response），但不会像BASIC认证那样直接发送明文密码。

SSL客户端认证：

为达到SSL客户端认证的目的，需要事先将客户端证书分发给客户端，且客户端必须安装此证书。

接收到需要认证资源的请求，服务器会发送Certificate Request报文，要求客户端提供客户端证书。
用户选择将发送的客户端证书后，客户端会把客户端证书信息以Client Certificate报文方式发送给服务器。
服务器验证客户端证书验证通过后方可领取证书内客户端的公开密钥，然后开始HTTPS加密通信。服务器验证客户端证书验证通过后方可领取证书内客户端的公开密钥，然后开始HTTPS加密通信。

在多数情况下，SSL客户端认证不会仅依靠证书完成认证，一般会和基于表单认证（稍后讲解）组合形成一种双因素认证（Two-factor authentication）来使用。

基于表单认证：

基于表单的认证方法并不是在HTTP协议中定义的。客户端会向服务器上的Web应用程序发送登录信息（Credential），按登录信息的验证结果认证。

基于表单认证的标准规范尚未有定论，一般会使用Cookie来管理Session（会话）。

客户端把用户ID和密码等登录信息放入报文的实体部分，通常是以POST方法把请求发送给服务器。
服务器会发放用以识别用户的Session ID。通过验证从客户端发送过来的登录信息进行身份认证，然后把用户的认证状态与Session ID绑定后记录在服务器端。（① 向客户端返回响应时，会在首部字段Set-Cookie内写入Session ID；② Session ID应使用难以推测的字符串，且服务器端也需要进行有效期的管理，保证其安全性；③ 为减轻跨站脚本攻击（XSS）造成的损失，建议事先在Cookie内加上httponly属性。）
客户端接收到从服务器端发来的Session ID后，会将其作为Cookie保存在本地。下次向服务器发送请求时，浏览器会自动发送Cookie，所以Session ID也随之发送到服务器。服务器端可通过验证接收到的Session ID识别用户和其认证状态。

第九章基于HTTP的功能追加协议

HTTP的瓶颈：

一条连接上只可发送一个请求。
请求只能从客户端开始。客户端不可以接收除响应以外的指令。
请求/响应首部未经压缩就发送。首部信息越多延迟越大。
发送冗长的首部。每次互相发送相同的首部造成的浪费较多。
可任意选择数据压缩格式。非强制压缩发送。

Google在2010年发布了SPDY（取自SPeeDY，发音同speedy），其开发目标旨在解决HTTP的性能瓶颈，缩短Web页面的加载时间（50%）。

SPDY没有完全改写HTTP协议，而是在TCP/IP的应用层与传输层之间通过新加会话层的形式运作。同时，考虑到安全性问题，SPDY规定通信中使用SSL。

SPDY以会话层的形式加入，控制对数据的流动，但还是采用HTTP建立通信连接。因此，可照常使用HTTP的GET和POST等方法、Cookie以及HTTP报文等。

使用SPDY后，HTTP可以：

多路复用流（通过单一的TCP连接，可以无限制处理多个HTTP请求。）
赋予请求优先级
压缩HTTP首部
推送功能（支持服务器主动向客户端推送数据的功能）
服务器提示功能（服务器可以主动提示客户端请求所需的资源）

使用浏览器进行全双工通信的WebSocket

一旦Web服务器与客户端之间建立起WebSocket协议的通信连接，之后所有的通信都依靠这个专用协议进行。通信过程中可互相发送JSON、XML、HTML或图片等任意格式的数据。

WebSocket特点：推送功能、减少通信量

握手请求：为了实现WebSocket通信，需要用到HTTP的Upgrade首部字段，告知服务器通信协议发生改变，以达到握手的目的。

握手响应：对于之前的请求，返回状态码101 Switching Protocols的响应。

示例：

var socket = new WebSocket('ws://xxx');
socket.onopen = function () {
    // ...
}

HTTP/2.0

HTTP/2.0的目标是改善用户在使用Web时的速度体验。

WebDAV：是一个可对Web服务器上的内容直接进行文件复制、编辑等操作的分布式文件系统。

第十章构建web内容的技术

HTML是为了发送Web上的超文本（Hypertext）而开发的标记语言。

动态HTML（Dynamic HTML），是指使用客户端脚本语言将静态的HTML内容变成动态的技术的总称。动态HTML技术是通过调用客户端脚本语言JavaScript，实现对HTML的Web页面的动态改造。利用DOM（Document Object Model，文档对象模型）可指定欲发生动态变化的HTML元素。

Web应用是指通过Web功能提供的应用程序。比如购物网站、网上银行、SNS、BBS、搜索引擎和e-learning等。

CGI（Common Gateway Interface，通用网关接口）是指Web服务器在接收到客户端发送过来的请求后转发给程序的一组机制。在CGI的作用下，程序会对请求内容做出相应的动作，比如创建HTML等动态内容。

Servlet是一种能在服务器上创建动态内容的程序。Servlet是用Java语言实现的一个接口，属于面向企业级Java（JavaEE,Java Enterprise Edition）的一部分。

可扩展标记语言XML是一种可按应用目标进行扩展的通用标记语言。旨在通过使用XML，使互联网数据共享变得更容易。

JSON（JavaScript Object Notation）是一种以JavaScript（ECMAScript）的对象表示法为基础的轻量级数据标记语言。能够处理的数据类型有false/null/true/对象/数组/数字/字符串，这7种类型。

第十一章 web的攻击技术

从整体上看，HTTP就是一个通用的单纯协议机制。因此它具备较多优势，但是在安全性方面则呈劣势。

在Web应用中，从浏览器那接收到的HTTP请求的全部内容，都可以在客户端自由地变更、篡改。所以Web应用可能会接收到与预期数据不相同的内容。

对Web应用的攻击模式有以下两种：主动攻击、被动攻击。

主动攻击（active attack）是指攻击者通过直接访问Web应用，把攻击代码传入的攻击模式。由于该模式是直接针对服务器上的资源进行攻击，因此攻击者需要能够访问到那些资源。

主动攻击模式里具有代表性的攻击是SQL注入攻击和OS命令注入攻击。

被动攻击（passive attack）是指利用圈套策略执行攻击代码的攻击模式。在被动攻击过程中，攻击者不直接对目标Web应用访问发起攻击。

实施Web应用的安全对策可大致分为以下两部分：

客户端的验证
Web应用端（服务器端）的验证

跨站脚本攻击（Cross-Site Scripting,XSS）是指通过存在安全漏洞的Web网站注册用户的浏览器内运行非法的HTML标签或JavaScript进行的一种攻击。动态创建的HTML部分有可能隐藏着安全漏洞。XSS是攻击者利用预先设置的陷阱触发的被动攻击。

SQL注入（SQL Injection）是指针对Web应用使用的数据库，通过运行非法的SQL而产生的攻击。该安全隐患有可能引发极大的威胁，有时会直接导致个人信息及机密信息的泄露。

OS命令注入攻击（OS Command Injection）是指通过Web应用，执行非法的操作系统命令达到攻击的目的。只要在能调用Shell函数的地方就有存在被攻击的风险。

HTTP首部注入攻击（HTTP Header Injection）是指攻击者通过在响应首部字段内插入换行，添加任意响应首部或主体的一种攻击。属于被动攻击模式。

邮件首部注入（Mail Header Injection）是指Web应用中的邮件发送功能，攻击者通过向邮件首部To或Subject内任意添加非法内容发起的攻击。利用存在安全漏洞的Web网站，可对任意邮件地址发送广告邮件或病毒邮件。

目录遍历（Directory Traversal）攻击是指对本无意公开的文件目录，通过非法截断其目录路径后，达成访问目的的一种攻击。

远程文件包含漏洞（Remote File Inclusion）是指当部分脚本内容需要从其他文件读入时，攻击者利用指定外部服务器的URL充当依赖文件，让脚本读取之后，就可运行任意脚本的一种攻击。

跨站点请求伪造（Cross-Site Request Forgeries,CSRF）攻击是指攻击者通过设置好的陷阱，强制对已完成认证的用户进行非预期的个人信息或设定信息等某些状态更新，属于被动攻击。

密码破解攻击（Password Cracking）即算出密码，突破认证。

点击劫持（Clickjacking）是指利用透明的按钮或链接做成陷阱，覆盖在Web页面之上。然后诱使用户在不知情的情况下，点击那个链接访问内容的一种攻击手段。

DoS攻击（Denial of Service attack）是一种让运行中的服务呈停止状态的攻击。有时也叫做服务停止攻击或拒绝服务攻击。DoS攻击的对象不仅限于Web网站，还包括网络设备及服务器等。

后门程序（Backdoor）是指开发设置的隐藏入口，可不按正常步骤使用受限功能。利用后门程序就能够使用原本受限制的功能。

ArthurWangCN / notepad

图解HTTP #16

第一章

第二章简单的HTTP协议

第三章 HTTP报文

第四章 HTTP状态码

第五章与HTTP协作的web服务器

第六章 HTTP首部

第七章确保web安全的HTTPS

第八章确认访问用户身份的认证

第九章基于HTTP的功能追加协议

第十章构建web内容的技术

第十一章 web的攻击技术

ArthurWangCN / notepad

图解HTTP #16

第一章

第二章 简单的HTTP协议

第三章 HTTP报文

第四章 HTTP状态码

第五章 与HTTP协作的web服务器

第六章 HTTP首部

第七章 确保web安全的HTTPS

第八章 确认访问用户身份的认证

第九章 基于HTTP的功能追加协议

第十章 构建web内容的技术

第十一章 web的攻击技术

第二章简单的HTTP协议

第五章与HTTP协作的web服务器

第七章确保web安全的HTTPS

第八章确认访问用户身份的认证

第九章基于HTTP的功能追加协议

第十章构建web内容的技术