0
点赞
收藏
分享

微信扫一扫

【数据分析】Text1

# 1.1载入数据
# 1.1.1 任务一:导入numpy和pandas
import numpy as np
import pandas as pd
import os


# 1.1.2 任务二:载入数据
#(1)使用相对路径
# data = pd.read_csv('./titanic/test.csv')

# (2)使用绝对路径
# print os.getcwd() D:\python\pythonPro\DataWhale  获取当前的绝对路径
data = pd.read_csv(r'D:\python\pythonPro\DataWhale\titanic\test.csv')

#【拓展】
# 此时可以看出,该数据行和列的数据并不能完全显示出来,可以使用pandas的特定设置
# 显示全部的列数
pd.set_option('display.max_columns',None)
# 显示全部的行数
pd.set_option('display.max_rows',None)
#设置数据的显示长度(解决自行换行)
pd.set_option('display.width',None)

data1 = pd.read_table('./titanic/test.csv',sep=',')


# 1.1.3任务三:每1000行为一个数据模块,逐块读取
chunk = pd.read_csv('./titanic/test.csv',chunksize=10)
# 使用逐块读取的好处:他的本质就是将文本分成若干块,每次处理chunksize行的数据,最终返回一个TextParaser对象
# 可对该对象进行遍历,可以完成逐块统计的合并处理


df = pd.read_csv('./titanic/train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)


# 1.2 初步观察
# 1.2.1任务一:查看数据的基本信息
df.info()

# 1.2.2 任务二:观察表格前10行和后10行数据
print df.head(10)
print df.tail(10)

# 1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False
print df.isnull().head()

df.to_csv('./titanic/chinese_train.csv')

举报

相关推荐

0 条评论