了解:urllib
在Python中有很多库可以用来抓取网页,在python2中有urllib和urllib2两个库来实现请求的发送,但是在python3中已经不存在urllib2了,统一为urllib,官方文档链接为:https://docs.python.org/3/library/urllib.html
Urllib是python内置的HTTP请求库,也就是不需要额外去安装了可以直接使用,他包含了以下4个模块:
- urllib.request :请求模块
- urllib.error :异常处理模块
- urllib.parse :url解析模块
- urllib.robotparser :robots.txt解析模块
2.1.1.urllib的基础使用
1. urlopen
关于urllib.request.urlopen参数的介绍:
urllib.request.urlopen(url, data=None, [timeout, ]*,cafile=None, capath=None, cadefault=False, context=None)
1.1. url
先写一个简单的例子:
import urllib.request
response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8'))
实际上,如果我们在浏览器上打开百度主⻚, 右键选择“查看源代码”,你会发现,跟我们刚才打印出来的是⼀模⼀样。也就是说,上⾯的3⾏代码就已经帮我们把百度的⾸⻚的全部代码爬了下来。
response.read()可以获取到网页的内容,如果没有read(),将返回如下内容
import urllib.request
response = urllib.request.urlopen('http://www.baidu.com')
print(response)
<http.client.HTTPResponse object at 0x7ff84809f550>
可以发现它是一个HTTPResponse类型的对象,
主要包含read(),readinto(),getheader(name).getheader(),fileno()等方法
1.2. data
上面的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求,
这里通过http://httpbin.org/post 网站演示(该网站可以作为练习使用urllib的一个站点使用,可以模拟各种请求操作)。
import urllib.parse
import urllib.request
data = bytes(urllib.parse.urlencode({'word': 'python'}), encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post', data=data)
print(response.read())
这里就用到urllib.parse,通过bytes(urllib.parse.urlencode())可以将post数据进行转换放到urllib.request.urlopen的data参数中。这样就完成了一次post请求。 所以如果我们添加data参数的时候就是以post请求方式请求,如果没有data参数就是get请求方式
GET和POST的区别?
- GET方式是直接以链接形式访问,链接中包含了所有的参数,服务器端用Request.QueryString获取变量的值。如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。
- POST则不会在网址上显示所有的参数,服务器端用Request.Form获取提交的数据,在Form提交的时候。但是HTML代码里如果不指定 method 属性,则默认为GET请求,Form中提交的数据将会附加在url之后,以?分开与url分开。
- 表单数据可以作为 URL 字段(method="get")或者 HTTP POST (method="post")的方式来发送。比如在下面的HTML代码中,表单数据将因为 (method="get") 而附加到 URL 上:
1.3. timeout
在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给请求设置一个超时时间,而不是让程序一直在等待结果。
import urllib.request
response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)
print(response.read())
1.4. request
在上一个例子里,urlopen()的参数就是一个url地址;
但是如果需要执行更复杂的操作,比如有很多网站为了防止程序爬虫爬网站造成网站瘫痪,会需要我们携带一些headers头部信息才能访问,必须创建一个 Request 实例来作为urlopen()的参数;而需要访问的url地址则作为 Request 实例的参数。
import urllib.request
## url 作为Request()方法的参数,构造并返回一个Request对象
request = urllib.request.Request('https://www.baidu.com')
## Request对象作为urlopen()方法的参数,发送给服务器并接收响应
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
上面我们说了,有很多网站不喜欢被程序(非人为访问)访问,为了防止程序爬虫爬网站造成网站瘫痪,网站会限制需要我们携带一些headers头部信息才能访问,打个很形象的例子,我和你两个人,你能直接进你家,但是我直接进你家的话就会被你爸拦下来,因为你是你爸的儿子而我不是,所以要进你家的话我需要一个身份,你和你爸说我是你朋友来你家玩,这样你爸肯定让我进了,这个身份就是所谓的User-Agent头,你带上了这个就会被允许访问。
import urllib.request
url = 'https://www.baidu.com'
User_Agent = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
## url 和 User_Agent 作为Request()方法的参数,构造并返回一个Request对象
request = urllib.request.Request(url=url,header=User_Agent)
## Request对象作为urlopen()方法的参数,发送给服务器并接收响应
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
添加请求头的第二种方式,添加更多的Header信息,这种添加方式有个好处是自己可以定义一个请求头字典,然后循环进行添加
import urllib.request
url = 'https://www.baidu.com'
User_Agent = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
request = urllib.request.Request(url=url,header=User_Agent)
request.add_header("Connection", "keep-alive")
# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")
response = urllib.request.urlopen(request)
print(response.code) #可以查看响应状态码
print(response.read().decode('utf-8'))
2. URL解析
2.1. urlencode
这个方法可以将字典转换为url参数,
import urllib.request, urllib.parse
word = {"wd": "恒企教育"}
# 通过urlencode将字典键值对按URL编码转换,从而能被web服务器接受。
word_encode = urllib.parse.urlencode(word)
print(word_encode)
# 通过unquote把 URL编码字符串,转换回原先字符串。
word_str = urllib.parse.unquote(word_encode)
print(word_str)
一般HTTP请求提交数据,需要编码成 URL编码格式,然后做为url的一部分,或者作为参数传到Request对象中。
2.2. urlparse
urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
该方法可以实现URl的识别和分段,看下面实例:
from urllib.parse import urlparse
result = urlparse("https://www.baidu.com/s?wd=python")
print(result)
ParseResult(scheme='https', netloc='www.baidu.com', path='/s', params='', query='wd=python', fragment='')
将url分为6个部分,返回一个包含6个字符串项目的元组:协议、位置、路径、参数、查询、片段。
其中scheme 是协议, netloc 是域名服务器,path 相对路径 ,params是参数,query是查询的条件
2.3. urlunpars
其实功能和urlparse的功能相反,它是用于拼接,它接受的参数是一个可迭代对象,但是它的长度必须是6,否则会抛出参数数量不足或者过多的问题。
from urllib.parse import urlunparse
data = ['http','www.baidu.com','index.html','user','a=123','commit']
print(urlunparse(data))
http://www.baidu.com/index.html;user?a=123#commit
3. 异常处理
在很多时候我们用urlopen或opener.open方法发出一个请求访问页面时,如果urlopen或opener.open不能处理这个response,页面就会产生错误,比如404,500等
这里主要说的是URLError和HTTPError,以及对它们的错误处理。
3.1. URLError
URLError 产生的原因主要有:
- 没有网络连接
- 服务器连接失败
- 找不到指定的服务器
我们可以用try except语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名:
from urllib import request,error
try:
response = request.urlopen("http://pythonsite.com/1111.html")
except error.URLError as e:
print(e.reason)
结果:
Not Found
URLError里只有一个属性:reason,即抓异常的时候只能打印错误信息,类似刚才的例子
3.2. HTTPError
HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。
如果urlopen或opener.open不能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。
注意,urllib2可以为我们处理重定向的页面(也就是3开头的响应码),100-299范围的号码表示成功,所以我们只能看到400-599的错误号码。
from urllib import request, error
try:
response = request.urlopen("http://pythonsite.com/1111.html")
except error.HTTPError as e:
print(e.reason)
print(e.code)
print(e.headers)
except error.URLError as e:
print(e.reason)
else:
print("reqeust successfully")
Not Found
404
Date: Thu, 10 May 2018 02:05:36 GMT
Server: Apache
Vary: Accept-Encoding
Content-Length: 207
Connection: close
Content-Type: text/html; charset=iso-8859-1
同时,e.reason其实也可以在做深入的判断,
import socket
from urllib import error,request
try:
response = request.urlopen("http://www.pythonsite.com/",timeout=0.001)
except error.URLError as e:
print(type(e.reason))
if isinstance(e.reason,socket.timeout):
print("time out")
<class 'socket.timeout'>
time out
3.2.1 HTTP响应状态码参考:
1xx:信息
100 Continue
服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
101 Switching Protocols
服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。
2xx:成功
200 OK
请求成功(其后是对GET和POST请求的应答文档)
201 Created
请求被创建完成,同时新的资源被创建。
202 Accepted
供处理的请求已被接受,但是处理未完成。
203 Non-authoritative Information
文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
204 No Content
没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
205 Reset Content
没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content
客户发送了一个带有Range头的GET请求,服务器完成了它。
3xx:重定向
300 Multiple Choices
多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently
所请求的页面已经转移至新的url。
302 Moved Temporarily
所请求的页面已经临时转移至新的url。
303 See Other
所请求的页面可在别的url下被找到。
304 Not Modified
未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
305 Use Proxy
客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Unused
此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
307 Temporary Redirect
被请求的页面已经临时移至新的url。
4xx:客户端错误
400 Bad Request
服务器未能理解请求。
401 Unauthorized
被请求的页面需要用户名和密码。
401.1
登录失败。
401.2
服务器配置导致登录失败。
401.3
由于 ACL 对资源的限制而未获得授权。
401.4
筛选器授权失败。
401.5
ISAPI/CGI 应用程序授权失败。
401.7
访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required
此代码尚无法使用。
403 Forbidden
对被请求页面的访问被禁止。
403.1
执行访问被禁止。
403.2
读访问被禁止。
403.3
写访问被禁止。
403.4
要求 SSL。
403.5
要求 SSL 128。
403.6
IP 地址被拒绝。
403.7
要求客户端证书。
403.8
站点访问被拒绝。
403.9
用户数过多。
403.10
配置无效。
403.11
密码更改。
403.12
拒绝访问映射表。
403.13
客户端证书被吊销。
403.14
拒绝目录列表。
403.15
超出客户端访问许可。
403.16
客户端证书不受信任或无效。
403.17
客户端证书已过期或尚未生效。
403.18
在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19
不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20
Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found
服务器无法找到被请求的页面。
404.0
没有找到文件或目录。
404.1
无法在所请求的端口上访问 Web 站点。
404.2
Web 服务扩展锁定策略阻止本请求。
404.3
MIME 映射策略阻止本请求。
405 Method Not Allowed
请求中指定的方法不被允许。
406 Not Acceptable
服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required
用户必须首先使用代理服务器进行验证,这样请求才会被处理。
408 Request Timeout
请求超出了服务器的等待时间。
409 Conflict
由于冲突,请求无法被完成。
410 Gone
被请求的页面不可用。
411 Length Required
"Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
412 Precondition Failed
请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large
由于所请求的实体的太大,服务器不会接受请求。
414 Request-url Too Long
由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
415 Unsupported Media Type
由于媒介类型不被支持,服务器不会接受请求。
416 Requested Range Not Satisfiable
服务器不能满足客户在请求中指定的Range头。
417 Expectation Failed
执行失败。
423
锁定的错误。
5xx:服务器错误
500 Internal Server Error
请求未完成。服务器遇到不可预知的情况。
500.12
应用程序正忙于在 Web 服务器上重新启动。
500.13
Web 服务器太忙。
500.15
不允许直接请求 Global.asa。
500.16
UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18
URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100
内部 ASP 错误。
501 Not Implemented
请求未完成。服务器不支持所请求的功能。
502 Bad Gateway
请求未完成。服务器从上游服务器收到一个无效的响应。
502.1
CGI 应用程序超时。 ·
502.2
CGI 应用程序出错。
503 Service Unavailable
请求未完成。服务器临时过载或当机。
504 Gateway Timeout
网关超时。
505 HTTP Version Not Supported
服务器不支持请求中指明的HTTP协议版本