0
点赞
收藏
分享

微信扫一扫

入门级——数据预处理(一)数据的基本信息查看

老王420 2022-01-06 阅读 70
数据分析

由于现实生活中获取到的数据并不是我们最终想要的形式,可能会出现空缺值,离群点,脏数据等情况,因此在进行数据分析之前需要先进行数据的预处理。

在进行数据预处理之前需要先进行基础的数据查看,此时用到python中的pandas库

基础的信息查看包括,数据的行数列数信息查看、数据的类型(例如,整型、字符型等)的查看、是否有空缺值(null)的查看,数值型数据的描述性信息的查看、数据的前几行信息的查看、以及基础的数据增加一列的操作等,具体代码如下。

#导入pandas库
import pandas as pd

#注意默认的,需要读取的csv的文件的编码方式需要是utf-8形式
content=pd.read_csv('需要读取的文件路径')

#显示读取的csv文件的前几行数据的信息
#注意  想要显示前几行信息,括号就写几行
content.head(10)

#展示读取的数据中数值型数据的基本统计信息
content.describe()
#展示读取的所有数据的基本统计信息
content.describe(include="all")
#展示读取的数据中的某一列的基本统计信息
content['想要描述的那一列的名称'].describe()

#显示读取的数据的数据格式、行数列数、是否非空以及占用内存
content.info()

#查看数据的行数以及列数,第一个数据是行数,第二个数据是列数
content.shape

#提取数据的哪几行哪几列数据,赋给新的变量
new=content.iloc[开始的行号:结束的行号(注意取不到),开始的列号:结束的列号(注意取不到)]

#显示数据的类型
content.dtypes

#将某一列的数据类型进行转化
content['想要转化的列名'].astype('想要转化成的类型')

#给读取成dataframe类型的文件新加一列
content['新加列的列名']=一个与原文件同样长度的列表

举报

相关推荐

0 条评论