使用Python进行数据分析必不可少的一个包就是pandas,它建立在NumPy库之上,为了能灵活地操作数据而提供了很多专门的方法,十分方便。pandas可以从各种文件格式比如CSV、JSON、SQL、Microsoft Excel导入数据。Pandas可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
pandas 大致分为三种数据结构:一维的Series、二维的DataFrame,以及三维的Panel。
Series保存的是一维的数据,而因为pandas本身是建立在NumPy之上,所以NumPy中的一维数组都可以转化为Series。
pandas.Series( data, index, dtype, name, copy)
参数说明如下:
data:一组数据(ndarray 类型)。
index:数据索引标签,如果不指定,默认从0开始。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。
import pandas as pd
a = [1, 2, 3]
b = pd.Series(a)
print(b)
输出
0 1
1 2
2 3
dtype: int64
上面第一列就是索引,第二列是具体的数据。如果没有指定索引,索引值就从0开始,我们可以根据索引值读取数据:可以根据索引读取数据例如:b[1],得到数字2。可以指定索引。
b = pd.Series(a,index = ["2", "3", "4"])
输出
2 1
3 2
4 3
如果使用b[2]得到的结果是3,也就是获取值的索引还是从0开始,只是显示出来的是自定义的。
这是因为上面定义的索引是字符串,所以应该使用b['2']来获取值1。