1.工具和版本选择
我使用的是Anaconda(环境)和Jupyter notebook(编译工具)来进行数据分析。
2.问题的提出和获取数据的基本操作
1)数据导入
①首先将数据集(data.csv)放到编写python脚本的目录下
②引入pandas库
import pandas as pd
③导入数据集
df=pd.read_csv('data.csv',encoding='utf-8')
read_csv是读取数据集文件的语句;data_csv是数据集的文件名;encoding是版本号,这里用的是utf-8
④查看刚才导入的数据集
df.head()
2)提出问题
提出问题可以通过以下步骤来实现:
step1:查看列标签
df.columns
step2:制作列标签说明文档
step3:提出问题