HTTP(HyperText Transfer Protocol)是超文本传输协议。它是应用层协议,同其他应用层协议一样,是为了实现某一类具体应用的协议,并由某一运行在用户空间的应用程序来实现其功能。 HTTP 是一种协议规范,这种规范记录在文档上,为真正通过 HTTP 进行通信的 HTTP 的实现程序。
HTTP 包含命令和传输信息,不仅可用于Web 访问,也可用于其他因特网,内联网应用系统之间的通信,从而实现各类应用资源超媒体访问的集成。
HTTP 也是一个客户端、服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端 是网站。通过使用 Web 浏览器、网络爬虫或其他工具,客户端发起一个到服务器上指定端口(默 认端口为 80)的 HTTP 请求。当在浏览器的地址框中输入一个 URL 或是单击一个超级链接时, URL 就确定了要浏览的地址。浏览器通过超文本传输协议(HTTP),将 Web 服务器上站点的网页 代码提取出来,并翻译成漂亮的网页。
HTTP 是基于客户 / 服务器模式,且面向连接的。HTTP 定义了 Web 客户端如何从 Web 服务器 请求 Web 页面,以及服务器如何把 Web 页面传送给客户端。HTTP 采用了请求 / 响应模型。客户 端向服务器发送一个请求,请求中包含请求的方法、URL、协议版本、请求头部和请求数据。服 务器以一个状态行作为响应,响应的内容包括协议的版本、成功或错误代码、服务器信息、响应 头部和响应数据。
典型的 HTTP 请求 / 响应的处理步骤如下:
(1)客户端与 Web 服务器建立连接:一个 HTTP 客户端,通常是浏览器,与 Web 服务器的 HTTP 端口(默认为 80)建立一个 TCP 连接。例如,https://www.baidu.com。
(2)客户端向 Web 服务器发送 HTTP 请求:通过 TCP 连接,客户端向 Web 服务器发送一个 文本的请求,该请求头由请求行、请求头部、空行和请求数据四部分组成。
(3)Web 服务器接收请求并返回相应的文件作为应答:Web 服务器解析请求,定位请求资源。 服务器将资源复本写到 TCP,由客户端读取。一个响应头由状态行、响应头部、空行和响应数据 四部分组成。
(4)客户端与 Web 服务器关闭连接:如果 connection 模式为 close,则服务器主动关闭 TCP 连 接,客户端被动关闭连接,释放 TCP 连接;如果 connection 模式为 keep-alive,则该连接会保持一 段时间,在该时间内可以继续接收请求。 (5)客户端浏览器解析 HTML 内容:客户端浏览器首先解析状态行,查看请求是否成功的状 态代码。然后解析每一个响应头,客户端浏览器读取响应数据 HTML,根据 HTML 的语法对其进 行格式化,并在浏览器窗口中显示。
HTTP/1.1 中共定义了 8 种方法来以不同方式操作指定的资源。GET 和 POST 是最常见的 HTTP 方法。此外,还包括 DELETE、HEAD、OPTIONS、PUT、TRACE 和 CONNECT 方法。 这里介绍一下常用的 HTTP 方法,其对爬取网页有很大的作用。
(1)GET 请求方式:使用 GET 方法时,请求参数和对应的值附加在 URL 后面,利用一个“?” 11 Scrapy 网络爬虫知识介绍 第 2 章 代表 URL 的结尾及附带参数的开始,参数用 key=value 键值对的方式书写,参数和参数之间用“&” 符号隔开。一般 GET 请求参数的大小受限,最大不超过 1024。由于参数明文地显示在了 URL 上面, 因此不太适合传递私密的数据。
(2)POST请求方式:POST方法将请求参数封装在HTTP请求的请求体中,以名称/值的形式出现, 可以传输大量的数据,在 URL 中看不到具体的请求数据,比较安全,适合数据量大的数据发送。 POST 请求一般用于表单数据的提交或上传文件。
HTTP 状态码由 3 个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个十进制 数字没有分类的作用。HTTP 状态码表示请求是否被理解或被满足。HTTP 状态码共分为 5 种类型:
(1)1xx :信息性状态码,表示接收的请求正在处理。
(2)2xx :成功状态码,表示请求已被成功地接收并处理。
(3)3xx :重定向状态码,表示需要进行附加操作才能完成请求。
(4)4xx :客户端错误状态码,表示请求有语法错误或请求无法实现
(5)5xx :服务器错误状态码,表示服务器在处理请求的过程中发生了错误。
下面是常见的 HTTP 状态码:
(1)200 :客户端请求成功。
(2)301 :永久性重定向。该状态码表示请求的资源已被分配了新的 URL,以后应使用资源 现在所指的 URL。
(3)303 :该状态码表示由于请求对应的资源存在着另一个 URL,应使用 GET 方法定向获取 请求的资源。
(4)400 :服务器未能理解请求。
(5)403 :对被请求页面的访问被禁止。
(6)404 :服务器无法找到被请求的页面。
(7)500 :服务器发生不可预期的错误,即内部服务器错误。
(8)503 :请求未完成。服务器临时过载或宕机,不能处理客户端的请求。一段时间后可能会 恢复正常。