目录
2.4.1 com.qf.bigata.transformer.ItemBaseFeatureModelData
2.4.2 com/qf/bigata/transformer/ItemCFModelData.scala
2.4.3 com/qf/bigata/transformer/LRModelData.scala
2.4.4 com/qf/bigata/transformer/ModelData.scala
2.4.5 com/qf/bigata/transformer/UnionFeatureModelData.scala
2.4.6 com/qf/bigata/transformer/UserBaseFeatureModelData.scala
2.5.1 com.qf.bigata.udfs.FeatureUDF
2.6.2 com.qf.bigata.utils.HBaseUtils
2.7.2 com/qf/bigata/AlsModelData.scala
2.7.3 com.qf.bigata.ArticleEmbedding
2.7.4 com.qf.bigata.transformer.ArticleEmbeddingModelData
2.7.5 com.qf.bigata.ItemBaseFeature
2.7.9 com.qf.bigata.UserBaseFeature
2.8.2 org.jpmml.sparkml.feature.StringVectorConverter
背景指路
项目四:使用SparkSQL开发的简易推荐系统_林柚晞的博客-CSDN博客_spark推荐系统开发案例
我摊牌了我只想躺平去多刷题了。现在我就把之前的做推荐系统的代码发一下以供参考
这里搞了两个召回策略,我不太熟悉ALS.。
0 pom.xml
大概的项目框架
架构长这样
1.0 资源
1.1 sparkml2pmml.properties
1.2 core-site.xml
1.3 hdfs-site.xml
1.4 hive-site.xml
1.5 yarn-site.xml
2 scala部分的架构
2.1 conf
2.2 Action
2.3 Constant
2.4 transformer
2.4.1 com.qf.bigata.transformer.ItemBaseFeatureModelData
2.4.2 com/qf/bigata/transformer/ItemCFModelData.scala
2.4.3 com/qf/bigata/transformer/LRModelData.scala
2.4.4 com/qf/bigata/transformer/ModelData.scala
2.4.5 com/qf/bigata/transformer/UnionFeatureModelData.scala
2.4.6 com/qf/bigata/transformer/UserBaseFeatureModelData.scala
2.4.7 VectorSchema
2.5 udfs
就是搞presto的udfs的状态
2.5.1 com.qf.bigata.udfs.FeatureUDF
2.5.2 RateUDF
2.6 utils
2.6.1 DateUtils
2.6.2 com.qf.bigata.utils.HBaseUtils
2.6.3 SparkUtils
2.7 解析类就是放在src里面的(运行的main)
2.7.1 AlsCF
2.7.2 com/qf/bigata/AlsModelData.scala
2.7.3 com.qf.bigata.ArticleEmbedding
2.7.4 com.qf.bigata.transformer.ArticleEmbeddingModelData
2.7.5 com.qf.bigata.ItemBaseFeature
2.7.6 ItemCF
2.7.7 LRClass
2.7.8 UnionFeature
2.7.9 com.qf.bigata.UserBaseFeature
2.8 重写机器学习库
2.8.1 StringVector
2.8.2 org.jpmml.sparkml.feature.StringVectorConverter
3 操作
时代久远忘记了一些操作步骤了,但是我还有之前的一些草稿
我真的忘记了怎么搞的(就是我把打包之后的jar上传到指定目录,然后改名了,在虚拟机里面运行jar包)
3.2 保存hbase
3.3 als
3.4 Feature
3.5 ArticleEmbedding
3.6 UserBaseFeature
3.7 回归算法
3.8 回归之后的featureEmd
3.9 cf
3.10 用户向量的嵌入
3.11 最后一个springboot的验证
4 在项目我遇到的bug们
YarnClusterScheduler: Initial job has not accepted any resources;_林柚晞的博客-CSDN博客
Hbase报错:/usr/local/hbase/bin/hbase:行445: /usr/local/bin/java: 没有那个文件或目录_林柚晞的博客-CSDN博客_启动hbase没有那个文件或目录
有关java.lang.ClassNotFoundException报错的总结_林柚晞的博客-CSDN博客
为什么能在Presto中可以运行的sql却在SparkSQL中报错?_林柚晞的博客-CSDN博客
HBase的异常:ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing_林柚晞的博客-CSDN博客
Error running ‘spring-boot-helloworld [package]’: No valid Maven installation found._林柚晞的博客-CSDN博客
其实我遇到的bug远大于上面提的,有些小bug根本没记录到。
这算是对过去一个月的总结吧。
我一定要学好机器学习!