0
点赞
收藏
分享

微信扫一扫

创建箱线图

直方图和密度图是展示数据分布的两种形式。通常只需要几个关键的分位数,我们就能对数

据的整体分布有一个印象。箱线图(或称为盒须图,box-and-whisker plot)是完成此项任务的简单

方式。对于一个随机生成的数值向量,我们可以调用boxplot( )来绘制箱线图,如图7-28所示。

x <- rnorm(1000)

boxplot(x)

创建箱线图_数据


图 7-28

箱线图有几个组成部分,分别展示了数据关

键的分位数水平和异常值。图 7-29 清楚地说明

了箱线图各个部分所表示的含义:

其中 IQR 表示四分位距,即有:IQR= 上四

分位数−下四分位数。

以下代码绘制每个航空公司飞行速度的箱

线图。我们将 16 个箱线图展示在同一个图中,

以便对不同航空公司的数据做一个粗略的比较。

接下来,我们使用公式 distance/air_time~

carrier说明y轴表示由distance/air_time

计算得到的飞行速度,x 轴表示航空公司。用这种表示方法,我们得到图 7-30。

boxplot(distance /air_time ~ carrier, data = flights,

main = "Box plot of flight speed by carrier")

我们使用了boxplot( )中创建图形的公式接口。这里distance/air_time ~ carrier

的主要含义是:y 轴表示 distance/air_time 的值,即飞行速度;x 轴表示不同的航空

公司。data=flights 告诉 boxplot( )到哪里找公式中指定的变量。最后,生成了按

航空公司分类的飞行速度的箱线图。

创建箱线图_数据分析_02


图 7-29

创建箱线图_数据分析_03


图 7-30

数据可视化和数据分析的公式接口非常易于理解且功能强大。下一节将介绍数据分析

的基本工具和模型。若想使模型拟合的关系更易于识别,那么在实现这些工具和模型的函

数背后,不仅依赖于算法,更依赖于用户友好的界面(公式)。

还有一些包是专门为数据可视化量身定制的。其中一个非常优秀的是 ggplot2 扩展

包,它实现了非常强大的图形语法,用于创建、撰写和自定义不同类型图形。然而,ggplot2

不在本书的介绍范围。如果想了解更多,推荐阅读 Hadley Wickham 编写的 ggplot2: Elegant

Graphics for Data Analysis。




举报

相关推荐

0 条评论