【数据分析】Text1-CFANZ编程社区

【数据分析】Text1
# 1.1载入数据
# 1.1.1 任务一：导入numpy和pandas
import numpy as np
import pandas as pd
import os


# 1.1.2 任务二：载入数据
#（1）使用相对路径
# data = pd.read_csv('./titanic/test.csv')

# (2)使用绝对路径
# print os.getcwd() D:\python\pythonPro\DataWhale  获取当前的绝对路径
data = pd.read_csv(r'D:\python\pythonPro\DataWhale\titanic\test.csv')

#【拓展】
# 此时可以看出，该数据行和列的数据并不能完全显示出来，可以使用pandas的特定设置
# 显示全部的列数
pd.set_option('display.max_columns',None)
# 显示全部的行数
pd.set_option('display.max_rows',None)
#设置数据的显示长度（解决自行换行）
pd.set_option('display.width',None)

data1 = pd.read_table('./titanic/test.csv',sep=',')


# 1.1.3任务三：每1000行为一个数据模块，逐块读取
chunk = pd.read_csv('./titanic/test.csv',chunksize=10)
# 使用逐块读取的好处：他的本质就是将文本分成若干块，每次处理chunksize行的数据，最终返回一个TextParaser对象
# 可对该对象进行遍历，可以完成逐块统计的合并处理


df = pd.read_csv('./titanic/train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)


# 1.2 初步观察
# 1.2.1任务一：查看数据的基本信息
df.info()

# 1.2.2 任务二：观察表格前10行和后10行数据
print df.head(10)
print df.tail(10)

# 1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False
print df.isnull().head()

df.to_csv('./titanic/chinese_train.csv')
0 条评论