对数据分析相关技能的掌握程度大致可以分为3个级别:基础水平,进阶水平和高级水平。
今天我们就来探讨一下,掌握这三个阶段所需的技能分别需要多少时间。
通常情况下,具有物理、数学、科学、工程、会计或计算机科学等学科背景的人,需要的时间相对更少。具体所需的时间取决于你的专业背景以及个人能够投入多少的精力和时间。
1、基础水平(所需时间:6-12个月)
首先是基础水平,希望从事数据分析领域的人群应该能够处理一般以逗号分隔值(CSV)文件格式呈现的数据集。并且应具备数据基础知识、数据可视化和线性回归方面的能力。
1.1.数据基础知识
能够对数据进行操作、清理、结构化、扩展和工程化。并且应该熟练使用pandas和NumPy库,应具备以下能力:
知道如何导入和导出以CSV文件格式存储的数据
能够清理、处理和组织数据,以便进一步分析或建立模型
能够处理数据集中的缺失值
理解并能够应用数据归因技术,如平均数或中位数归因。
能够处理分类数据
知道如何将数据集划分为训练集和测试集
能够使用缩放技术(如归一化和标准化)来缩放数据
能够通过主成分分析(PC)等降维技术压缩数据
1.2. 数据可视化
能够理解数据可视化的基本组成部分。能够使用数据可视化工具,包括Python的matplotlib和seaborn包;和R的ggplot2包。
具体需要掌握以下几个能力:
数据组件 进行数据可视化的第一步在于区分并了解数据类型,例如,分类数据,离散数据,连续数据,时间序列数据等。
几何成分 决定哪种可视化方式更适合数据,例如,散点图、线形图、条形图、直方图、Q-Q图、平滑密度图、boxplots、配对图、热图等。
映射成分 决定用什么变量作为X变量,用什么作为Y变量。这一点很重要,特别是当数据集是多维的、有多个特征的时候。
尺度组件 决定使用什么样的尺度,例如,线性尺度、对数尺度等。
标签组件 了解像坐标轴标签、标题、图例、使用的字体大小等内容。
道德操守 确保可视化描述的内容是真实的。在清理、总结、处理和制作数据可视化时,要确保没有利用可视化来误导或操纵观众。
1.3.监督学习(预测连续目标变量)
熟悉线性回归和其他高级回归方法。能够使用scikit-learn和caret等软件包来建立线性回归模型。
具体需要具备以下能力:
能够使用NumPy或Pylab进行简单的回归分析
能够使用scikit-learn进行多元回归分析
了解正则化回归方法,如Lasso、Ridge和Elastic Net
了解其他非参数化回归方法,如KNeighbors回归(KNR)和支持向量回归(SVR)。
了解评估回归模型的各种指标,如MSE(平均平方误差)、MAE(平均绝对误差)和R2得分
能够比较不同的回归模型
2. 进阶水平(所需时间:7-18个月)
下面我们看到更进阶的需要掌握哪些技能:
2.1 监督学习(预测离散目标变量)
熟悉二元分类算法,例如:
感知器分类器
逻辑回归分类器
支持向量机(SVM)
能够使用核SVM解决非线性分类问题
决策树分类器
K-nearest分类器
Naive Bayes分类器
了解分类算法质量的几个指标,如准确率、精确度、灵敏度、特异性、召回率、F-L评分、混淆矩阵、ROC曲线。
能够使用scikit-learn来建立模型
2.2 模型评估和超参数调整
能够在管道中组合变压器和估计器
能够使用k-折交叉验证(k-fold cross-validation)来评估模型性能
了解如何使用学习和验证曲线调试分类算法
能够通过学习曲线诊断偏差和方差问题
能够通过验证曲线解决过拟合和欠拟合问题
了解如何通过网格搜索微调机器学习模型
了解如何通过网格搜索调整超参数
能够阅读和解释混淆矩阵
能够绘制和解释接收器工作特性(ROC)曲线
2.3 结合不同的模型进行集合学习
能够使用不同分类器的集合方法
能够结合不同的算法进行分类
知道如何评估和调整集合分类器
3. 高级水平(所需时间:18-48个月)
接下来是更高级的阶段,这需要数据人能够处理高级数据集,如文本、图像、语音和视频。除基本和进阶技能外,具体应具备以下能力:
聚类算法(无监督学习)
K-means
深度学习
神经网络
Keras
TensorFlow
PyTorch
Theano
云系统(AWS,Azure)
结语:
综上所述,我们已经讨论了数据科学的3个级别。第一个级别的能力可以在6到12个月内实现。第2级能力可以在7到18个月内实现。第3级能力可以在18至48个月内实现。这一切都取决于所投入的努力和每个人的专业背景。
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。