[TOC]
Python内置的模块有urllib,用于访问网络资源。但是,它用起来比较麻烦,而且,缺少很多实用的高级功能。
更好的方案是使用requests。它是一个Python第三方库,处理URL资源特别方便。
安装requests
如果安装了Anaconda,requests就已经可用了。否则,需要在命令行下通过pip安装:
1 | $ pip install requests |
使用requests
要通过GET访问一个页面,只需要几行代码:
1 | >>> import requests |
对于带参数的URL,传入一个dict作为params
参数:
1 | >>> r = requests.get('https://www.douban.com/search', params={'q': 'python', 'cat': '1001'}) |
requests自动检测编码,可以使用encoding
属性查看:
1 | >>> r.encoding |
无论响应是文本还是二进制内容,我们都可以用content
属性获得bytes
对象:
1 | >>> r.content |
requests的方便之处还在于,对于特定类型的响应,例如JSON,可以直接获取:
1 | >>> r = requests.get('https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=json') |
需要传入HTTP Header时,我们传入一个dict作为headers
参数:
1 | >>> r = requests.get('https://www.douban.com/', headers={'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit'}) |
要发送POST请求,只需要把get()
方法变成post()
,然后传入data
参数作为POST请求的数据:
1 | >>> r = requests.post('https://accounts.douban.com/login', data={'form_email': 'abc@example.com', 'form_password': '123456'}) |
requests默认使用application/x-www-form-urlencoded
对POST数据编码。如果要传递JSON数据,可以直接传入json参数:
1 | params = {'key': 'value'} |
类似的,上传文件需要更复杂的编码格式,但是requests把它简化成files
参数:
1 | >>> upload_files = {'file': open('report.xls', 'rb')} |
在读取文件时,注意务必使用'rb'
即二进制模式读取,这样获取的bytes
长度才是文件的长度。
对于post请求,一般data参数用来验证权限,files表示要post的文件,所以对于需要权限才能上传的requests如下:
1 | post_url = post_json['url'] |
把post()
方法替换为put()
,delete()
等,就可以以PUT或DELETE方式请求资源。
除了能轻松获取响应内容外,requests对获取HTTP响应的其他信息也非常简单。例如,获取响应头:
1 | >>> r.headers |
requests对Cookie做了特殊处理,使得我们不必解析Cookie就可以轻松获取指定的Cookie:
1 | >>> r.cookies['ts'] |
要在请求中传入Cookie,只需准备一个dict传入cookies
参数:
1 | >>> cs = {'token': '12345', 'status': 'working') |
最后,要指定超时,传入以秒为单位的timeout参数:
1 | >>> r = requests.get(url, timeout=2.5) # 2.5秒后超时 |
小结
用requests获取URL资源,就是这么简单