day1 AI面试刷题
- 1、简述机器学习项目的一般流程
- 2、哪些机器学习算法需要做特征归一化,哪些不需要?为什么?
- 3、One-hot的作用是什么?为什么不直接使用数字作为表示?
- 4、什么是数据不平衡?如何解决?
- 5、请比较欧氏距离与曼哈顿距离
1、简述机器学习项目的一般流程
机器学习项目的流程
- 数据获取(爬虫,第三方,自产)
- 数据分析与清洗(观察样本数据特征,数据类型;洗去样本异常值,去除或填补缺失值)
- 特征工程(筛选重要特征,或融合产生新的、更重要的特征)
- 建模(训练模型,选择合适的模型,注意分类,聚类还是回归模型)
- 得出结果并进行打分(使用模型产出结果,并打分,评估模型好坏,若模型问题,则回到4,若特征问题,回到3)
- 分析报告,可视化,得出结论
2、哪些机器学习算法需要做特征归一化,哪些不需要?为什么?
归一化是对样本的数字进行处理,避免不同特征值差距过大而造成值权重较高,归一化使不同特征值分布更紧密,即将样本不同特征的不同权重处理为相同的权重,此外加快梯度下降求解的速率。那么,对数值敏感(如计算欧氏距离)的机器学习算法则需要该特征归一化,比如:逻辑归回,线性回归,SVM,KNN,神经网络等。而概率模型则不用,如树形结构的算法:如决策树、随机森林等,他们只在乎特征占整体样本的分布以及条件概率,与具体数值无关。
3、One-hot的作用是什么?为什么不直接使用数字作为表示?
One-hot独热编码是用来做数据预处理的,来处理离散型数据的,比如某样本某特征为language,表示为编程语言,有三个值Python,Java,C++。因为机器无法处理该字符串,所以应转化为数值型。
直接使用数字表示会引起人为误差,如假设某一样本只有一个分类特征,三种分类值,用非one-hot表示为1,2,3,那么用one-hot表示为[1,0,0],[0,1,0]和[0,0,1],后者三个分类之间的距离都相等为根号2,而前者根号5,根号14和根号10,出现了不相等而引起的误差。
4、什么是数据不平衡?如何解决?
数据不平衡问题指的是某一类标签的数量比例过小,比如银行借贷信用信息,超过还款日期的人数相对于正常还款人数过于少而造成样本不均衡。
从样本角度考虑:
有两种方法,过采样和欠采样。
过采样:对较小类别进行一些过采样,随机重复一些数据,使其与类别数量较多的样本数量相当,带方法会造成过拟合。
欠采样:随机剔除类别数量多的样本,使其与类别数量少的样本相当,该方法会丢失部分重要数据信息。
从评价标准考虑:
对于均衡的样本,一般使用准确率来评价模型好快。但对于该不平衡模型则失去意义,使用PR曲线,同时考虑精准率和召回率。
阈值调整:
不对数据进行处理,将阈值调整到正例/负例
参考-阈值调整CSDN
5、请比较欧氏距离与曼哈顿距离
欧式距离是计算两点间的直线距离,而曼哈顿距离式计算两点间的轴线距离。
修改时间:
2022.1.10