20220330
##########################
一、业务目标
货找人? 每个用户针对每个药品都推荐几个合适的供应商?
最终的产品呈现效果,客户打开小程序之后,呈现的药品都是其需要的?没有搜索和目录?
二、使用对象
所有使用我们一键入库产品的药店还是针对全国所有的药店?全国所有貌似不可能,毕竟对于未使用我们一键入库产品的药店没有基础数据。
三、可能存在的方案及其问题
3.1协同过滤
合纵药品有5万多个,用户有至少3万多个
1.基于用户相似度的推荐存在的问题
1.1 求用户相似度资源耗费会比较大,另外也不适合批量推荐,
也不适合新用户,药品推荐没有具体的目的性 基本无法使用
2.基于商品相似的推荐存在的问题
2.1 数据稀疏性
2.2 相似度矩阵的维护难度大
二者相比较,基于商品的协同过滤较为实用,但是否并不满足业务的输出要求
3.基于内容(文本相似度)的推荐
具体的文本内容是什么?标签? 那些标签 ?针对库存缺失的药品
性能效率问题
3.2 机器学习
1.问题
1.1无负样本的历史数据且各种特征较少基本可以排除
3.3 基础算法
1.流程主要步骤节点及其可能遇到的问题
1.1需要补货商品种类如何找出?
利用库存数据和计算公式
1.2确定了需要补货单商品后,如何确定需要推荐的商品?
首先对码,在对码后的商品中结合供应商数据以及其他标签来推荐商品?
供应商数据:饱满率 如果是饱满率的话,肯定是选到大公司,每个药品只推荐3-5个供应商?,地区区域问题
销售策略:药品打标的问题
1.3如何处理进驻供应商和合纵冲突的问题?
之前的定价用不了,放在一起的话基本就是性价比高的取胜。这是个核心重点问题,因为药品是标品,不解决这个问题,整个项目都可能面临着失败。
四、总体框架
在客户当前已有历史数据的情况下,丰富和补充更多选项,客户上一次购买为首推选项?整体简化为数据库查询?在加入供应商所提供的药品资料中做推荐配置?
最终效果:首先是精准的批准文号对码成功的推荐,然后是流行度的推荐,最后三级类目下基于内容的推荐。
五、需要干的事情
1.缺货,断货,动销率高商品的找出
2.基于批准文号对码的商品推荐
3.基于流行度的推荐
4.在三级类目下基于内容的推荐
六、其他问题
评估问题当前列举的点击率,转化率等只针对单个商品,而且需要一个标准。
评估标准是否应该改成购买合纵商品种类,数量的多少。
数量不足的时候:兜底数据
云仓数据库
库存,入库时间
20220330
对某个药店所有能对码成功的商品在三级类目下进行基于内容的推荐
不存在冷启动的问题了
数据找数仓,云仓找造模拟数据
某个商品的动销率 = (一个月之内的销售量)/(一个月之内的销售量+当前的库存量)
#####################
#####################
推荐系统模型
模型一:
预测补货点:根据库存
推荐缺货/断货/动销率高商品
模型二:流行度推荐
解决推荐系统冷启动问题
模型三:基于领域推荐-协同过滤
基于用户(给用户推荐和他之前喜欢的物品相似的物品)
基于物品(给用户推荐和他兴趣相似的其他用户喜欢的物品,主要通过分析用户的行为记录计算物品之间的相似度。该算法认为,物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都也购买物品B。)
用户同时购买的商品不一定有什么相关性,可能只是同时缺货,所以模型效果可能很差
(批准文号)
模型四:基于内容推荐
用户标签:除地址外无其他可用属性(浏览网页,购买商品,评论,评分都无)
商品标签:
数据:
trino1.55 iveberg.onekey. odp_hz_onekey_spzl indication字段
Mysql 1.110 dsl hezong_drug表 药品属性的文本
方法:
商品原始分类太粗糙,商品三级标签可能有几十、几百个药品,对商品属性的文本(商品名称、用法等)进行关键词抽取,把物品表示成关键词向量,根据关键词向量计算相似度,聚类打标
难点:需要说明书字段,目前只有合纵药品有
用户标签
无评分、浏览信息
模型五:基于模型推荐-机器学习
只有用户购买数据集,属于隐性反馈数据集,无负样本:没有用户浏览过但是不感兴趣的商品数据,生成合理的负样本较难
验证指标
离线:
覆盖率(反映了推荐算法发掘长尾的能力,最终推荐的列表包含多大比例的物品,如果所有物品都被推荐给至少一个用户,覆盖率就是100%)
新颖性(推荐列表中物品平均流行度)
上线:
点击率
转化率
冷启动:
用户冷启动:选择合适的物品启动用户的兴趣(热门商品,具有代表性和区分性,多样性)
物品冷启动:模型二流行
模型融合:级联融合,加权融合(权重计算)
系统上线后模型升级
问题:
1.用户是否是从一键入库客户获取?是
2.所有商品是否有类似资料字段(内容推荐)?先使用合纵药品信息,后期替换
3.补货预测 是算法还是java?暂不确定
#####################