


Numpy库在向量化的数值计算中表现优异,但在处理更加灵活、复杂的数据时(如:为数据添加标签、处理缺失值、分组和透视表等方面),基于Numpy构建的Pandas库更利于数据分析。
一、对象创建
-
Pandas Series对象
Series是带标签的一维数组Series对象的创建
通用结构:pd.Series(data, index=index, dtype=dtype)
data:数据,可为列表,字典或Numpy数组
index:索引,为可选参数
dtype:数据类型,为可选参数1)用列表创建


2)用一维numpy数组创建

3)用字典创建

4)data为标量时

-
Pandas DataFrame对象
DataFrame是带标签的多维数组DataFrame对象的创建
通用结构:pd.DataFrame(data, index=index, columns=columns)
data:数据,可为列表,字典或Numpy数组
index:索引,为可选参数
columns:数据类型,为可选参数
1)通过Series对象创建

2)通过Series对象字典创建

3)通过字典列表对象创建

4)通过Numpy二维数组创建

二、DataFrame性质
- 属性


- 索引




- 切片





行分散,列切片,只能用相对位置的方法

行列都分散取值,也只能用相对位置的方法

- 布尔索引
主要用来取某几列的数据




- 赋值



即先索引,后赋值

三、数值运算及统计分析
- 数据的查看

1)查看前面的行

2)查看后面的行

3)查看总体信息

- Numpy通用函数同样适用于Pandas

2)矩阵化运算











