在家无聊
不如跟我一起学Python
从数据获取、数据清洗
到数据探索、数据可视化
我会的都会分享
不会的我会继续学习
学无止境
今天分享的是文本数据的导入
一起学习吧
一、CSV文件读取
打开原始的数据如下所示
通过写代码读取数据
当我们处理的数据量很大时
通过写代码的方式
简洁并且高效
程序代码都放到代码框里了
大家一定要动手多练练
import csv #从文件中加载带分隔符的数据,默认分隔符为逗号
fp = open('D:/python数据分析/数据/shuju1.csv','w',newline='')
writer = csv.writer(fp)
writer.writerow(('id','name','grade'))
writer.writerow(('1','lucky','87'))
writer.writerow(('2','peter','92'))
writer.writerow(('3','lili','85'))
fp.close()
!type D:\python数据分析\数据\shuju1.csv #查看数据情况
import pandas as pd #读取文件
df = pd.read_csv(open('D:/python数据分析/数据/shuju1.csv')) #若文件路径中有中文,需用open函数,否则会报错。
df
df = pd.read_table(open('D:/python数据分析/数据/shuju1.csv'),sep=',') #指定分隔符
df
df = pd.read_csv(open('D:/python数据分析/数据/shuju1.csv'),index_col='id') #指定行索引
df
二、TXT文件读取
除了数值型数据
这种文本数据在数据分析时
也占了很大的比重
比如商品评论分析
网站舆情监测分析
前期都要做很多文本数据的处理
数据处理的好坏
关乎到数据结果
本例的文本数据如下
fp = open('D:/python数据分析/数据/shuju2.txt','a+')
fp.writelines('id?name?grade'+'\n')
fp.writelines('1?lucky?87'+'\n')
fp.writelines('2?peter?92'+'\n')
fp.writelines('3?lili?85'+'\n')
fp.close()
!type D:\python数据分析\数据\shuju2.txt #数据情况
import pandas as pd
df = pd.read_table(open('D:/python数据分析/数据/shuju2.txt'),sep='?') #指定分隔符
df
!type D:\python数据分析\数据\shuju3.txt #数据情况
df = pd.read_table(open('D:/python数据分析/数据/shuju3.txt'),sep='\s+') #正则表达式的使用
df
三、文本数据存储
数据清洗阶段完成后
可以将“干净”的数据导出
作为一个新样本研究
其研究质量会有大幅度的提升
import pandas as pd
df = pd.read_csv(open('D:/python数据分析/数据/shuju1.csv'))
df
df.to_csv('D:/python数据分析/数据/out1.csv') #存储文本数据
!type D:\python数据分析\数据\out1.csv
df.to_csv('D:/python数据分析/数据/out2.csv',sep='?') #指定分隔符,存储文本数据
!type D:\python数据分析\数据\out2.csv
df.to_csv('D:/python数据分析/数据/out3.csv',index=False) #处理行和列索引
!type D:\python数据分析\数据\out3.csv
关于数据导入的内容
还有很多内容去学习
可以放在实践中
慢慢去发掘知识