Python 爬虫常用库的安装-CFANZ编程社区

python爬虫常用第三方库

安装方法

C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts

pip.exe
pip3.7.exe
pip3.exe

这三个命令其实完全一致，只是名字不一样而已，建议添加到环境变量中去，方便实用。

安装第三方库：

pip install libraryname

1. urllib

python 自带，不用额外安装

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回如下结果表示请求成功：
<http.client.HTTPResponse object at 0x0000021B8D6D8CF8>

2. request

import requests
response=requests.get("http://www.baidu.com")
print(response)

返回如下结果表示请求成功：
<Response [200]>

3. 正则表达式模块

re, python 自带，不用额外安装, 直接 import 不报错，证明该库正确安装

4. selenium

主要是用来做驱动浏览器的一个库，一般用来做自动化测试。我们在做爬虫的时候，会遇到一些 JS 渲染的网页，这时候用 requests 做请求的时候无法获取正确的请求内容。这时候我们用 selenium 就可以直接驱动浏览器，用浏览器直接执行 JS 的渲染，之后得到的结果就是渲染之后的界面，就可以拿到 JS 渲染之后的内容了。

5. chromedriver

http://chromedriver.chromium.org/

下载时候注意版本问题。下 32位的，解压之后放到一个已经配置好环境变量的地方。

import selenium
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
print(driver.page_source)

6. `plantomjs` or `headless`

selenium 打开的时有界面的浏览器，plantomjs 打开的就是无界面的浏览器。

但是貌似废弃掉了， =-=，换成 headless

import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)
driver.get)
print(driver.page_source)