Seaborn 数据可视化基础-CFANZ编程社区

Seaborn 数据可视化基础

Matplotlib 是支持 Python 语言的开源绘图库，因为其支持丰富的绘图类型、简单的绘图方式以及完善的接口文档，深受 Python 工程师、科研学者、数据工程师等各类人士的喜欢。Seaborn 是以 Matplotlib 为核心的高阶绘图库，无需经过复杂的自定义即可绘制出更加漂亮的图形，非常适合用于数据可视化探索。

知识点

关联图
类别图
分布图
回归图
矩阵图
组合图

Seaborn 基于 Matplotlib 核心库进行了更高阶的 API 封装，可以让你轻松地画出更漂亮的图形。Seaborn 的漂亮主要体现在配色更加舒服、以及图形元素的样式更加细腻，下面是 Seaborn 官方给出的参考图。

Seaborn 具有如下特点：

内置数个经过优化的样式效果。
增加调色板工具，可以很方便地为数据搭配颜色。
单变量和双变量分布绘图更为简单，可用于对数据子集相互比较。
对独立变量和相关变量进行回归拟合和可视化更加便捷。
对数据矩阵进行可视化，并使用聚类算法进行分析。
基于时间序列的绘制和统计功能，更加灵活的不确定度估计。
基于网格绘制出更加复杂的图像集合。

快速优化图形

当我们使用 Matplotlib 绘图时，默认的图像样式算不上美观。此时，就可以使用 Seaborn 完成快速优化。下面，我们先使用 Matplotlib 绘制一张简单的图像。

import matplotlib.pyplot as plt

x = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
y_bar = [3, 4, 6, 8, 9, 10, 9, 11, 7, 8]
y_line = [2, 3, 5, 7, 8, 9, 8, 10, 6, 7]

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')

Seaborn 数据可视化基础_核密度估计

使用 Seaborn 完成图像快速优化的方法非常简单。只需要将 Seaborn 提供的样式声明代码 sns.set() 放置在绘图前即可。

import seaborn as sns

sns.set()  # 声明使用 Seaborn 样式

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')

Seaborn 数据可视化基础_核密度估计_02

sns.set() 的默认参数为：

Seaborn 数据可视化基础_数据集_03

其中：

context='' 参数控制着默认的画幅大小，分别有 {paper, notebook, talk, poster} 四个值。其中，poster > talk > notebook > paper。
style='' 参数控制默认样式，分别有 {darkgrid, whitegrid, dark, white, ticks}，你可以自行更改查看它们之间的不同。
palette='' 参数为预设的调色板。分别有 {deep, muted, bright, pastel, dark, colorblind} 等，你可以自行更改查看它们之间的不同。
剩下的 font='' 用于设置字体，font_scale= 设置字体大小，color_codes= 不使用调色板而采用先前的 'r' 等色彩缩写。

关联图

当我们需要对数据进行关联性分析时，可能会用到 Seaborn 提供的以下几个 API。

关联性分析	介绍
relplot	绘制关系图
scatterplot	多维度分析散点图
lineplot	多维度分析线形图

relplot 是 relational plots 的缩写，其可以用于呈现数据之后的关系，主要有散点图和条形图 2 种样式。本次实验，我们使用鸢尾花数据集进行绘图探索。

在绘图之前，先熟悉一下 iris 鸢尾花数据集。数据集总共 150 行，由 5 列组成。分别代表：萼片长度、萼片宽度、花瓣长度、花瓣宽度、花的类别。其中，前四列均为数值型数据，最后一列花的分类为三种，分别是：Iris Setosa、Iris Versicolour、Iris Virginica。

iris = sns.load_dataset("iris")
iris.head()

由于可能数据加载不成功 , 我们需要下载数据到本地,然后直接读取 .https://github.com/mwaskom/seaborn-data

iris = pd.read_csv("iris.csv")
print(iris.head())

Seaborn 数据可视化基础_数据集_04

此时，我们指定 xx 和 yy 的特征，默认可以绘制出散点图。

sns.relplot(x="sepal_length", y="sepal_width", data=iris)

Seaborn 数据可视化基础_数据集_05

但是，上图并不能看出数据类别之间的联系，如果我们加入类别特征对数据进行着色，就更好一些了。

sns.relplot(x="sepal_length", y="sepal_width", hue="species", data=iris)

Seaborn 数据可视化基础_数据集_06

relplot 还支持线形图,只需要指定kind ="line" 参数即可。

类别图

与关联图相似，类别图的 Figure-level 接口是 catplot，其为 categorical plots 的缩写。而 catplot 实际上是如下 Axes-level 绘图 API 的集合：

分类散点图:

stripplot() (kind="strip")
swarmplot() (kind="swarm")

分类分布图:

boxplot() (kind="box")
violinplot() (kind="violin")
boxenplot() (kind="boxen")

分类估计图:

pointplot() (kind="point")
barplot() (kind="bar")
countplot() (kind="count")

kind="swarm" 可以让散点按照 beeswarm 的方式防止重叠，可以更好地观测数据分布。

sns.catplot(x="sepal_length", y="species", kind="swarm", data=iris)

Seaborn 数据可视化基础_数据_07

分布图

分布图主要是用于可视化变量的分布情况，一般分为单变量分布和多变量分布。当然这里的多变量多指二元变量，更多的变量无法绘制出直观的可视化图形。

Seaborn 提供的分布图绘制方法一般有这几个： jointplot，pairplot，distplot，kdeplot。接下来，我们依次来看一下这些绘图方法的使用。

Seaborn 快速查看单变量分布的方法是 distplot。默认情况下，该方法将会绘制直方图并拟合核密度估计图。

Seaborn 数据可视化基础_数据_08

distplot 提供了参数来调整直方图和核密度估计图，例如设置 kde=False 则可以只绘制直方图，或者 hist=False 只绘制核密度估计图。当然，kdeplot 可以专门用于绘制核密度估计图，其效果和 distplot(hist=False) 一致，但 kdeplot 拥有更多的自定义设置

sns.kdeplot(iris["sepal_length"])

jointplot 主要是用于绘制二元变量分布图。例如，我们探寻 sepal_length 和 sepal_width 二元特征变量之间的关系。

sns.jointplot(x="sepal_length", y="sepal_width", data=iris)

Seaborn 数据可视化基础_核密度估计_09

jointplot 并不是一个 Figure-level 接口，但其支持 kind= 参数指定绘制出不同样式的分布图。例如，绘制出核密度估计对比图。

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="kde")

六边形计数图：

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="hex")

回归拟合图：

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="reg")

最后要介绍的 pairplot 更加强大，其支持一次性将数据集中的特征变量两两对比绘图。默认情况下，对角线上是单变量分布图，而其他则是二元变量分布图。

sns.pairplot(iris)

此时，我们引入第三维度 hue="species" 会更加直观。

回归图

接下来，我们继续介绍回归图，回归图的绘制函数主要有：lmplot 和 regplot。

regplot 绘制回归图时，只需要指定自变量和因变量即可，regplot 会自动完成线性回归拟合。

sns.regplot(x="sepal_length", y="sepal_width", data=iris)

lmplot 同样是用于绘制回归图，但 lmplot 支持引入第三维度进行对比，例如我们设置 hue="species"。

sns.lmplot(x="sepal_length", y="sepal_width", hue="species", data=iris)

矩阵图

矩阵图中最常用的就只有 2 个，分别是：heatmap 和 clustermap。

意如其名，heatmap 主要用于绘制热力图。

import numpy as np

sns.heatmap(np.random.rand(10, 10))

热力图在某些场景下非常实用，例如绘制出变量相关性系数热力图。

除此之外，clustermap 支持绘制 层次聚类 结构图。如下所示，我们先去掉原数据集中最后一个目标列，传入特征数据即可。当然，你需要对层次聚类有所了解，否则很难看明白图像表述的含义。

iris.pop("species")
sns.clustermap(iris)