数据挖掘:data mining,是一个很宽泛的概念。字面的意思是从成吨的数据里面挖掘有用的信息。这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做。利用Excel分析数据,发现了一些有用的信息,然后通过这些信息指导你的Business的过程也是数据挖掘的过程。已报名,看我名称分响
2.机器学习:machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。
3.深度学习:deep learning,机器学习里面现在比较火的一个topic(大坑),本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。
总结下,数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,深度学习是机器学习一类比较火的算法,本质上还是原来的神经网络。
4.推荐算法:机器学习是方法,人工智能/数据挖掘是应用,可以使用机器学习,也可以使用别的方法。数据挖掘有很多应用场景,推荐系统是其中一个业务目的明确的, 有一定历史的,成体系的,已经形成较为完善的经验积累的应用场景。数据挖掘中还有很多应用场景有待开发,连是否能挖出有价值的模式都不知道。像推荐系统,计算机视觉,nlp这些价值已知的场景,明显是要幸运一些。写书的当然什么都要写写啦,难道机器学习里有的东西,推荐系统的书就不能写了?再说这些书侧重点不同,推荐系统里讲的机器学习算法更贴近推荐业务,侧重于算法应用,应用效果,对具体业务指标的影响,给整个系统带来的局限或提升等等。肯定不会像统计学习基础那样给你讲一堆推倒过程,讲统计特性,更不会像统计学习理论那样再给你来几下证明。这些书都有说机器学习,但是角度不同。如果讲机器学习算法的书和讲推荐系统的书在讲机器学习算法时基本差不多,那么那本讲机器学习的书也基本可以扔掉了。
项目1:商品购买预测
week1 商业智能与推荐系统
- 1、商业智能的场景及工具
- 2、信息流产品介绍(推荐架构、广告、搜索的关系)
- 3、常用的推荐系统算法有哪些
- 4、冷启动与E&E问题
week2 挖掘数据中的关联规则
- 1、Target预测高中生怀孕
- 2、Apriori算法、FPGrowth算法
- 3、最小值尺度,最小置信度该如何确定
- 4、超市购物小票的关联分析
- 5、挖掘电影分类中的关联规则
- 6、挖掘电影中的演员关联规则
week3 推荐系统眼中的你—用户画像
- 1、设计用户画像的准则
- 2、无监督的聚类算法
- 3、利用标签来做推荐
- 4、推荐系统中的准确率,召回率,精确率,F值
week4 ALS算法与推荐系统
- 1、矩阵分解ALS算法
- 2、Spark中的ALS工具
- 3、Surprise推荐系统工具使用
- 4、Netflix电影评分预测(48万用户,1.7万电影,1亿电影评分)
week5 SVD矩阵分解与基于内容的推荐
- 1、矩阵分解SVD算法(FunkSVD,BiasSVD,SVD++)
- 2、基于邻域的推荐算法UserCF,ItemCF
- 3、基于邻域的协同过滤算法
- 4、预测用户对电影的评分
week6 因子分解机
- 1、算法:FM,FFM,DeepFM
- 2、工具:libFM,xLearn
- 3、矩阵分解与FM的关系
- 4、广告点击率预测
week7 CTR预估算法
- 1、GBDT+LR模型
- 2、Wide & Deep模型
- 3、NFM模型
- 4、CTR预估
week8 淘宝定向广告演化
- 1、定向广告DNN Base Model
- 2、Attention原理
- 3、深度兴趣网络DIN
- 4、DIN的工程化(评价指标,Dice函数,MBA-Reg正则)
- 5、深度兴趣进化网络DIEN
- 6、DIEN的工程化(辅助损失函数)
- 7、深度会话兴趣网络DSIN
- 8、天猫用户复购预测
项目2:资金流入流出预测
week9 逻辑回归与可解释性
- 1、逻辑回归与现行回归
- 2、逻辑回归的假设
- 3、逻辑回归的特征可解释性
- 4、超参数调优(贝叶斯优化)
week10 评分卡模型
- 1、WOE,IV
- 2、变量分箱
- 3、缺失值处理
- 4、样本不均衡问题(SMOTE 模型)
- 5、评分卡模型在风控中的应用
week11 时间序列模型
- 1、AR、MA、ARMA、ARIMA模型
- 2、时间序列预测工具Prophet
- 3、节日与大事件
- 4、页面流量预测
- 5、交通流量预测
week12 机器学习四大神器
- 1、GBDT
- 2、XGBoost
- 3、LightGBM
- 4、CatBoost
week13 循环神经网络与预测
- 1、RNN模型
- 2、LSTM与GRU模型
- 3、梯度爆炸与梯度消失
- 4、RNN的劣势与使用场景
- 5、LSTM进行时间序列预测
- 6、预测未来3个月的股市
week14个性化推荐与金融数据分析
- 1、Airbnb个性化推荐场景
- 2、Word2Vec的使用
- 3、信用卡违约预测
- 4、信用卡欺诈预测
week15 强化学习
- 1、强化学习Agent分类
- 2、策略网络
- 3、价值网络
- 4、蒙特卡洛树搜索MCTS
week16 AlphaGo Zero实战
- 1、AlphaGo的强化学习原理
- 2、MCTS树的创建和使用
- 3、基于MCTS的AI Player
- 4、策略价值网络(Policy Value Network)实现
- 5、使用强化学习对AI进行训练
项目3:智慧物流:订单配送规划
week17 常用数据分析方法
- 1、AIPL模型
- 2、Kraljic模型(数据驱动采购定位)
- 3、帕累托法则
- 4、RFM用户价值模型
week18 智能供应链Project
- 1、供应链采购中的BI分析
- 2、使用RFM对用户分层管理
- 3、欺诈行为(Fraud)预测
- 4、发货延迟(late delivery)预测
- 5、销售业绩(Sales)预测
- 6、订货数量( Order Item Quantity )预测
week19 启发式算法
- 1、遗传算法及应用
- 2、运筹学算法及应用
week20 PageRank、图论与推荐系统
- 1、PageRank简化模型
- 2、PageRank的随机浏览模型
- 3、使用PageRank分析人物关系及影响力
- 4、相关模型:TextRank,EdgeRank,PersonalRank
week21 路径规划Project
- 1、最短路径算法
- 2、如何使用NetWorkX工具
- 3、基于高德地图的路径规划
week22 最优化问题
- 1、旅行商问题
- 2、服务调度优化
week23 图嵌入
- 1、图嵌入原理
- 2、DeepWalk原理
- 3、Word2Vec,DeepWalk工具
- 4、Node2Vec原理
week24 GCN及应用
- 1、图卷积神经网络
- 2、拉普拉斯矩阵
- 3、GCN的使用
- 4、恶意软件检测