12/23每日总结-CFANZ编程社区

12/23每日总结

因为学习python web没有学数据分析，但是比较感兴趣，所以来了

要用到的库为numpy跟pandas，介绍如下：

NumPy系统是Python的一种开源的数值计算扩展，这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多（该结构也可以用来表示矩阵（matrix））。

pandas 是基于NumPy的一种工具，该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。

载入数据，载入数据有两种办法，一种是绝对路径载入，一种是相对路径载入，绝对值得就是最完整的路径，相对路径的相对则是不完整路径，这个相对指的就是相对于当前文件夹路径。

import os #导入os
1. os.path.abspath('train.csv')绝对路径载入方法1
2. path=os.path.abspath('train.csv')绝对路径载入方法1#设置全局变量path
df = pd.read_csv(path)#给df重新赋值，再次执行df，仍然可显示出train.csv
df= pd.read_csv('train.csv')相对路径载入：#设置全局变量df，给df赋值，执行df可显示出train.csv 
df=pd.read_csv('文件夹/文件名')载入文件夹的数据

读取数据

df.head() #输出前五行数据
df.T #表格转置
os.getcwd()#查看当前工作目录

read_csv和read_table都是是加载带分隔符的数据，每一个分隔符作为一个数据的标志，但二者读出来的数据格式还是不一样的，read_csv是以，为分隔符，read_table是以制表符 \t 作为数据的标志，也就是以行为单位进行存储。

pd.read_csv(path) #以‘，’为分隔符读取数据
pd.read_table(path)#以‘\t(制表符)’为分隔符读取数据
pd.read_table(path,sep=',')=pd.read_csv(path)

0 条评论