0
点赞
收藏
分享

微信扫一扫

Python 爬虫常用库的安装


  • ​​python爬虫常用第三方库​​

安装方法

C:\Users\username\AppData\Local\Programs\Python\Python37\Scripts

pip.exe
pip3.7.exe
pip3.exe

这三个命令其实完全一致,只是名字不一样而已,建议添加到环境变量中去,方便实用。

安装第三方库:

pip install libraryname

1. urllib

python 自带,不用额外安装

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回如下结果表示请求成功:
<http.client.HTTPResponse object at 0x0000021B8D6D8CF8>

2. request

import requests
response=requests.get("http://www.baidu.com")
print(response)

返回如下结果表示请求成功:
<Response [200]>

3. 正则表达式模块

re, python 自带,不用额外安装, 直接 ​​import​​ 不报错,证明该库正确安装

4. selenium

主要是用来做驱动浏览器的一个库,一般用来做自动化测试。我们在做爬虫的时候,会遇到一些 JS 渲染的网页,这时候用 ​​requests​​​ 做请求的时候无法获取正确的请求内容。这时候我们用 ​​selenium​​ 就可以直接驱动浏览器,用浏览器直接执行 JS 的渲染,之后得到的结果就是渲染之后的界面,就可以拿到 JS 渲染之后的内容了。

5. chromedriver

  • ​​http://chromedriver.chromium.org/​​

下载时候注意版本问题。下 32位的,解压之后放到一个已经配置好环境变量的地方。

import selenium
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
print(driver.page_source)

6. ​​plantomjs​​​ or ​​headless​

​selenium​​​ 打开的时有界面的浏览器,​​plantomjs​​ 打开的就是无界面的浏览器。

但是貌似废弃掉了, =-=,换成 ​​headless​

import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)
driver.get)
print(driver.page_source)

7. LXML

网页解析用

8. beautifulsoup4

9. pyquery

解析DOM树和jQuery选择器

10. pymysql | pymongo | redis | flask | jango | jupyter


举报

相关推荐

0 条评论