1、pandas读取文件
# (1) 有 header
`filename='data.csv'`
`df=pd.read_csv(filename)`
#(2) txt(no header)
# 指定列 分隔符:(\t)
filename='data.txt'
df=pd.read_csv(filename,sep='\t',header=None,usecols=[0,1,3,5],names=['','','',''])
2、rename
#rid aid
df = df.rename(columns={'rid':'Rid','aid':'Aid'})
3、是否存在用isin函数
# paper_ids
df = df[df.Rid.isin(paper_ids, use_hashmap=True)]
4、去重
df = df.drop_duplicates()
5、对含有NaN的行的处理
(1)填充值
# 全部填充0
df.fillna(0)
# 单列填充
df['A'] = df['A'].fillna(0)
(2)删除这行
df = df.dropna()