- python爬虫常用第三方库
安装方法
C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts
pip.exe
pip3.7.exe
pip3.exe
这三个命令其实完全一致,只是名字不一样而已,建议添加到环境变量中去,方便实用。
安装第三方库:
pip install libraryname
1. urllib
python 自带,不用额外安装
import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)
返回如下结果表示请求成功:
<http.client.HTTPResponse object at 0x0000021B8D6D8CF8>
2. request
import requests
response=requests.get("http://www.baidu.com")
print(response)
返回如下结果表示请求成功:
<Response [200]>
3. 正则表达式模块
re, python 自带,不用额外安装, 直接 import
不报错,证明该库正确安装
4. selenium
主要是用来做驱动浏览器的一个库,一般用来做自动化测试。我们在做爬虫的时候,会遇到一些 JS 渲染的网页,这时候用 requests
做请求的时候无法获取正确的请求内容。这时候我们用 selenium
就可以直接驱动浏览器,用浏览器直接执行 JS 的渲染,之后得到的结果就是渲染之后的界面,就可以拿到 JS 渲染之后的内容了。
5. chromedriver
- http://chromedriver.chromium.org/
下载时候注意版本问题。下 32位的,解压之后放到一个已经配置好环境变量的地方。
import selenium
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
print(driver.page_source)
6. plantomjs
or headless
selenium
打开的时有界面的浏览器,plantomjs
打开的就是无界面的浏览器。
但是貌似废弃掉了, =-=,换成 headless
import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)
driver.get)
print(driver.page_source)
7. LXML
网页解析用
8. beautifulsoup4
9. pyquery
解析DOM树和jQuery选择器
10. pymysql | pymongo | redis | flask | jango | jupyter