0
点赞
收藏
分享

微信扫一扫

Seaborn 数据可视化基础


                                                 Seaborn 数据可视化基础

Matplotlib 是支持 Python 语言的开源绘图库,因为其支持丰富的绘图类型、简单的绘图方式以及完善的接口文档,深受 Python 工程师、科研学者、数据工程师等各类人士的喜欢。Seaborn 是以 Matplotlib 为核心的高阶绘图库,无需经过复杂的自定义即可绘制出更加漂亮的图形,非常适合用于数据可视化探索。

知识点

  • 关联图
  • 类别图
  • 分布图
  • 回归图
  • 矩阵图
  • 组合图

Seaborn 基于 Matplotlib 核心库进行了更高阶的 API 封装,可以让你轻松地画出更漂亮的图形。Seaborn 的漂亮主要体现在配色更加舒服、以及图形元素的样式更加细腻,下面是 Seaborn 官方给出的参考图。

Seaborn 具有如下特点:

  • 内置数个经过优化的样式效果。
  • 增加调色板工具,可以很方便地为数据搭配颜色。
  • 单变量和双变量分布绘图更为简单,可用于对数据子集相互比较。
  • 对独立变量和相关变量进行回归拟合和可视化更加便捷。
  • 对数据矩阵进行可视化,并使用聚类算法进行分析。
  • 基于时间序列的绘制和统计功能,更加灵活的不确定度估计。
  • 基于网格绘制出更加复杂的图像集合。

快速优化图形

当我们使用 Matplotlib 绘图时,默认的图像样式算不上美观。此时,就可以使用 Seaborn 完成快速优化。下面,我们先使用 Matplotlib 绘制一张简单的图像。

import matplotlib.pyplot as plt

x = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
y_bar = [3, 4, 6, 8, 9, 10, 9, 11, 7, 8]
y_line = [2, 3, 5, 7, 8, 9, 8, 10, 6, 7]

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')

Seaborn 数据可视化基础_核密度估计

使用 Seaborn 完成图像快速优化的方法非常简单。只需要将 Seaborn 提供的样式声明代码 ​​sns.set()​​ 放置在绘图前即可。

import seaborn as sns

sns.set() # 声明使用 Seaborn 样式

plt.bar(x, y_bar)
plt.plot(x, y_line, '-o', color='y')

Seaborn 数据可视化基础_核密度估计_02

​sns.set()​​ 的默认参数为:

Seaborn 数据可视化基础_数据集_03

其中:

  • ​context=''​​​ 参数控制着默认的画幅大小,分别有 ​​{paper, notebook, talk, poster}​​​ 四个值。其中,​​poster > talk > notebook > paper​​。
  • ​style=''​​​ 参数控制默认样式,分别有 ​​{darkgrid, whitegrid, dark, white, ticks}​​,你可以自行更改查看它们之间的不同。
  • ​palette=''​​​ 参数为预设的调色板。分别有 ​​{deep, muted, bright, pastel, dark, colorblind}​​ 等,你可以自行更改查看它们之间的不同。
  • 剩下的 ​​font=''​​​ 用于设置字体,​​font_scale=​​​ 设置字体大小,​​color_codes=​​​ 不使用调色板而采用先前的 ​​'r'​​ 等色彩缩写。

关联图

当我们需要对数据进行关联性分析时,可能会用到 Seaborn 提供的以下几个 API。

关联性分析

介绍

relplot

绘制关系图

scatterplot

多维度分析散点图

lineplot

多维度分析线形图

​​relplot​​ 是 relational plots 的缩写,其可以用于呈现数据之后的关系,主要有散点图和条形图 2 种样式。本次实验,我们使用鸢尾花数据集进行绘图探索。

在绘图之前,先熟悉一下 iris 鸢尾花数据集。数据集总共 150 行,由 5 列组成。分别代表:萼片长度、萼片宽度、花瓣长度、花瓣宽度、花的类别。其中,前四列均为数值型数据,最后一列花的分类为三种,分别是:Iris Setosa、Iris Versicolour、Iris Virginica。 

iris = sns.load_dataset("iris")
iris.head()

由于可能数据加载不成功 , 我们需要下载数据到本地,然后直接读取 .​​https://github.com/mwaskom/seaborn-data​​

 

iris = pd.read_csv("iris.csv")
print(iris.head())

Seaborn 数据可视化基础_数据集_04

此时,我们指定 xx 和 yy 的特征,默认可以绘制出散点图。

sns.relplot(x="sepal_length", y="sepal_width", data=iris)

Seaborn 数据可视化基础_数据集_05

但是,上图并不能看出数据类别之间的联系,如果我们加入类别特征对数据进行着色,就更好一些了。

sns.relplot(x="sepal_length", y="sepal_width", hue="species", data=iris)

Seaborn 数据可视化基础_数据集_06

relplot 还支持线形图,只需要指定kind ="line" 参数即可。

类别图 

与关联图相似,类别图的 Figure-level 接口是 ​​catplot​​​,其为 categorical plots 的缩写。而 ​​catplot​​ 实际上是如下 Axes-level 绘图 API 的集合:

  • 分类散点图:
  • ​​stripplot()​​​ (​​kind="strip"​​)
  • ​​swarmplot()​​​ (​​kind="swarm"​​)
  • 分类分布图:
  • ​​boxplot()​​​ (​​kind="box"​​)
  • ​​violinplot()​​​ (​​kind="violin"​​)
  • ​​boxenplot()​​​ (​​kind="boxen"​​)
  • 分类估计图:
  • ​​pointplot()​​​ (​​kind="point"​​)
  • ​​barplot()​​​ (​​kind="bar"​​)
  • ​​countplot()​​​ (​​kind="count"​​)

​kind="swarm"​​ 可以让散点按照 beeswarm 的方式防止重叠,可以更好地观测数据分布。

sns.catplot(x="sepal_length", y="species", kind="swarm", data=iris)

Seaborn 数据可视化基础_数据_07

分布图

分布图主要是用于可视化变量的分布情况,一般分为单变量分布和多变量分布。当然这里的多变量多指二元变量,更多的变量无法绘制出直观的可视化图形。

Seaborn 提供的分布图绘制方法一般有这几个: ​​jointplot​​​,​​pairplot​​​,​​distplot​​​,​​kdeplot​​。接下来,我们依次来看一下这些绘图方法的使用。

Seaborn 快速查看单变量分布的方法是 ​​distplot​​。默认情况下,该方法将会绘制直方图并拟合核密度估计图。

Seaborn 数据可视化基础_数据_08

​distplot​​​ 提供了参数来调整直方图和核密度估计图,例如设置 ​​kde=False​​​ 则可以只绘制直方图,或者 ​​hist=False​​​ 只绘制核密度估计图。当然,​​kdeplot​​​ 可以专门用于绘制核密度估计图,其效果和 ​​distplot(hist=False)​​​ 一致,但 ​​kdeplot​​ 拥有更多的自定义设置

sns.kdeplot(iris["sepal_length"])

​jointplot​​​ 主要是用于绘制二元变量分布图。例如,我们探寻 ​​sepal_length​​​ 和 ​​sepal_width​​ 二元特征变量之间的关系。

sns.jointplot(x="sepal_length", y="sepal_width", data=iris)

Seaborn 数据可视化基础_核密度估计_09

 

​jointplot​​​ 并不是一个 Figure-level 接口,但其支持 ​​kind=​​ 参数指定绘制出不同样式的分布图。例如,绘制出核密度估计对比图。

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="kde")

六边形计数图:

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="hex")

回归拟合图:

sns.jointplot(x="sepal_length", y="sepal_width", data=iris, kind="reg")

最后要介绍的 ​​pairplot​​ 更加强大,其支持一次性将数据集中的特征变量两两对比绘图。默认情况下,对角线上是单变量分布图,而其他则是二元变量分布图。

sns.pairplot(iris)

此时,我们引入第三维度 ​​hue="species"​​ 会更加直观。

回归图

接下来,我们继续介绍回归图,回归图的绘制函数主要有:​​lmplot​​​ 和 ​​regplot​​。

​regplot​​​ 绘制回归图时,只需要指定自变量和因变量即可,​​regplot​​ 会自动完成线性回归拟合。

sns.regplot(x="sepal_length", y="sepal_width", data=iris)

​lmplot​​​ 同样是用于绘制回归图,但 ​​lmplot​​​ 支持引入第三维度进行对比,例如我们设置 ​​hue="species"​​。 

sns.lmplot(x="sepal_length", y="sepal_width", hue="species", data=iris)

矩阵图

矩阵图中最常用的就只有 2 个,分别是:​​heatmap​​​ 和 ​​clustermap​​。

意如其名,​​heatmap​​ 主要用于绘制热力图。

import numpy as np

sns.heatmap(np.random.rand(10, 10))

热力图在某些场景下非常实用,例如绘制出变量相关性系数热力图。

除此之外,​​clustermap​​​ 支持绘制 ​​ 层次聚类​​ 结构图。如下所示,我们先去掉原数据集中最后一个目标列,传入特征数据即可。当然,你需要对层次聚类有所了解,否则很难看明白图像表述的含义。

iris.pop("species")
sns.clustermap(iris)

 

 

 

举报

相关推荐

0 条评论