基于用户行为特征的推荐-CFANZ编程社区

简述：基于用户行为分析的推荐算法是个性化推荐系统的重要算法，也被称为协同过滤算法，即通过用户与网站不断互动，来不断过滤自己感兴趣的物品。

基础概念

用户行为分类

按照反馈的明确性分
显性反馈行为：
用户明确表示对物品的喜好的行为，如点赞，评分等
隐形反馈行为：
不能明确反映用户喜好的行为，浏览日志，观看日志等
按照反馈的⽅向分
正反馈：指⽤户的⾏为倾向于指⽤户喜欢该物品。
负反馈：负反馈指⽤户的⾏为倾向于指⽤户不喜欢该物品

用户行为表示

在这里插入图片描述

用户行为分析

用户行为数据满足power law的分布，即长尾分布
在这里插入图片描述

基于邻域的推荐算法

基于用户的协同过滤算法

核心思想

找到与目标用户兴趣相似的用户集合，找到这个集合中用户喜欢且目标用户没有听说过的物品推荐给目标用户。

计算用户相似度

其中分子部分，即交集部分，如果两两计算时间复杂度较大，可以先建立用户倒查表，来存储对该物品产⽣过⾏为的⽤户列表。同时在改良方法中为降低热门物品的影响，引入惩罚项。
计算用户对物品的感兴趣程度

代码实现

#初始数据
user_item_dict = {"A": ['a','b','e'],
                  "B": ['c','e','g'],
                  "C": ['a','d','f','g'],
                  "D": ['b','c','e','f'],
                  "E": ['b','d'],
                  "F": ['c','d','f']
                 }


#基于用户的协同过滤算法
class UserCF():
    def __init__(self,user_item_dict):
        #将每个用户的物品取集合
        self.user_item_dict = {key:set(user_item_dict[key]) for key in user_item_dict.keys()}
        #用户列表
        self.users_list = list(self.user_item_dict.keys())
    #两两用户之间计算用户相似度
    def compute_similer_twouser(self):
        #记录与其他用户相似度的字典
        user_similer_list = dict()
        
        for i in self.users_list:
            user_similer_list[i] = dict()
            for j in self.users_list:
                #去除自身相似度
                if i !=  j:
                    #两用户间物品并集，并计算余弦相似度
                    similer_item = self.user_item_dict[i] & self.user_item_dict[j]
                    user_similer_list[i][j]= round(len(similer_item)/(len(self.user_item_dict[i]) * len(self.user_item_dict[j]))**0.5,3)
        return user_similer_list
    
#     优化后的倒查表方式计算用户相似度
    def computer_similer_backform_normal(self):
        import numpy as np
        #记录物品的所有用户的字典
        item_user_dict = dict()
        #建立物品到用户的倒查表
        for i,items in self.user_item_dict.items():
            for j in items:
                if j not in item_user_dict.keys():
                    item_user_dict[j] = list()
                item_user_dict[j].append(i)
                
        #建立用户物品二维矩阵
        user_matrix = np.zeros((len(self.users_list),len(self.users_list)),dtype = int)
        for  item, users in item_user_dict.items():
            for user1 in users:
                for user2 in users:
                    if user1 != user2:
                        #记录不同用户间共同物品的数目
                        user_matrix[self.users_list.index(user1)][self.users_list.index(user2)] += 1
                
        #计算用户相似度
        user_similer_list = dict()
        for user1 in self.users_list:
            user_similer_list[user1] = dict()
            for user2 in self.users_list:
                if user1 != user2:
                    #利用二维矩阵存储的用户相似度进行计算
                    user_similer_list[user1][user2] =round(user_matrix[self.users_list.index(user1)][self.users_list.index(user2)]/
                                                           (len(self.user_item_dict[user1]) * len(self.user_item_dict[user2]))**0.5,3)   
        return user_similer_list
    #惩罚热门物品和倒查表方式计算用户相似度（同倒查表方式一致，只是在相似度计算中引入惩罚））
    def computer_similer_backform_punish(self):
        import numpy as np
        import math
        item_user_dict = dict()
        #建立物品到用户的倒查表
        for i,items in self.user_item_dict.items():
            for j in items:
                if j not in item_user_dict.keys():
                    item_user_dict[j] = list()
                item_user_dict[j].append(i)
                
        #建立用户矩阵
        self.user_matrix = np.zeros((len(self.users_list),len(self.users_list)))
        for  item, users in item_user_dict.items():
            for user1 in users:
                for user2 in users:
                    if user1 != user2:
                        #对热门物品进行惩罚
                        self.user_matrix[self.users_list.index(user1)][self.users_list.index(user2)] += 1/math.log(1+len(users))
                
        #计算用户相似度
        user_similer_list = dict()
        for user1 in self.users_list:
            user_similer_list[user1] = dict()
            for user2 in self.users_list:
                if user1 != user2:
                    user_similer_list[user1][user2] =round(self.user_matrix[self.users_list.index(user1)][self.users_list.index(user2)]/ 
                    (len(self.user_item_dict[user1]) * len(self.user_item_dict[user2]))**0.5,3)
                    self.user_matrix[self.users_list.index(user1)][self.users_list.index(user2)] = user_similer_list[user1][user2]
        return user_similer_list,item_user_dict
    
    #计算指定用户的推荐物品
    def compute_interest_item(self,user):
        
        user_similer_list,item_user_dict = self.computer_similer_backform_punish()
        #本处相似用户集合大小为3，取相似度高的前三名用户
        sort_coor = np.argsort(self.user_matrix[self.users_list.index(user)])[::-1][:3]
    
        recommend_item = dict()
        for item in item_user_dict.keys():
            recommend_item[item] = 0
            for i in sort_coor:
                #推荐不在指定用户物品集中，但在相似用户物品集中的物品，r=1
                if item not in self.user_item_dict[user] and item in self.user_item_dict[self.users_list[i]]:
                    recommend_item[item] += self.user_matrix[self.users_list.index(user)][i]
        
        #对推荐的物品按照感兴趣程度降序
        recommend_item = {k:v for k,v in sorted(recommend_item.items(), key = lambda item :item[1] ,reverse=True) if v != 0}
        return recommend_item
    
usercf = UserCF(user_item_dict)
print('两两用户之间计算用户相似度:')
print(usercf.compute_similer_twouser())
print('优化后的倒查表方式计算用户相似度:')
print(usercf.computer_similer_backform_normal())
print('惩罚热门物品和倒查表方式计算用户相似度:')
print(usercf.computer_similer_backform_punish()[0])
print('推荐物品:')
print(usercf.compute_interest_item('A'))

在这里插入图片描述

缺点

随着⽹站的⽤户数⽬越来越⼤，计算⽤户兴趣相似度矩阵将越来越困难，其运算时间复杂度和空间复杂度的增⻓和⽤户数的增⻓近似于平⽅关系。
基于⽤户的协同过滤很难对推荐结果作出解释。

基于物品的协同过滤算法

核心思想

同基于用户的协同过滤算法一致，只是从物品的角度进行推荐。给用户推荐那些和他们之前喜欢的物品相似的物品。

计算物品之间的相似度。

为减轻了热⻔物品会和很多物品相似的可能性，替换为：

直接两两取交集
建立倒查表
建立倒查表+惩罚项

相似度归一化
在研究中发现如果将 ItemCF 的相似度矩阵按最⼤值归⼀化，可以提⾼推荐的准确率
根据物品的相似度和⽤户的历史⾏为给⽤户⽣成推荐列表。

代码实现

实验数据同上

#基于物品的协同过滤算法
class ItemCF():
    def __init__(self,user_item_dict):
        #将每个用户的物品取集合
        self.user_item_dict = {key:set(user_item_dict[key]) for key in user_item_dict.keys()}
        #用户列表
        self.users_list = list(self.user_item_dict.keys())
        
        #物品的用户集合
        self.item_user_dict = dict()
        #建立物品到用户的倒查表
        for i,items in self.user_item_dict.items():
            for j in items:
                if j not in self.item_user_dict.keys():
                    self.item_user_dict[j] = set()
                self.item_user_dict[j].add(i)
        
        #物品列表
        self.items_list = list(self.item_user_dict.keys())
    #两两用户之间计算物品相似度
    def compute_similer_twouser(self):
        #记录与其他物品相似度的字典
        item_similer_list = dict()
        
        for i in self.items_list:
            item_similer_list[i] = dict()
            for j in self.items_list:
                #去除自身相似度
                if i !=  j:
                    #两物品间用户并集，并计算余弦相似度
                    similer_user = self.item_user_dict[i] & self.item_user_dict[j]
                    item_similer_list[i][j]= round(len(similer_user)/(len(self.item_user_dict[i]) * len(self.item_user_dict[j]))**0.5,3)
        return item_similer_list
    
#     优化后的倒查表方式计算物品相似度
    def computer_similer_backform_normal(self):
        import numpy as np
        
        #建立物品二维矩阵
        item_matrix = np.zeros((len(self.items_list),len(self.items_list)),dtype = int)
        for  users,items in self.user_item_dict.items():
            for item1 in items:
                for item2 in items:
                    if item1 != item2:
                        #记录不同物品间共同用户的数目
                        item_matrix[self.items_list.index(item1)][self.items_list.index(item2)] += 1
                
        #计算物品相似度
        item_similer_list = dict()
        for item1 in self.items_list:
            item_similer_list[item1] = dict()
            for item2 in self.items_list:
                if item1 != item2:
                    #利用二维矩阵存储的物品相似度进行计算
                    item_similer_list[item1][item2] =round(item_matrix[self.items_list.index(item1)][self.items_list.index(item2)]/
                                                           (len(self.item_user_dict[item1]) * len(self.item_user_dict[item2]))**0.5,3)   
        return item_similer_list
    #惩罚活跃用户和倒查表方式计算物品相似度（同倒查表方式一致，只是在相似度计算中引入惩罚））
    def computer_similer_backform_punish(self):
        import numpy as np
        import math
        #建立物品二维矩阵
        self.item_matrix = np.zeros((len(self.items_list),len(self.items_list)))
        for  users,items in self.user_item_dict.items():
            for item1 in items:
                for item2 in items:
                    if item1 != item2:
                        #记录不同物品间共同用户的数目
                        self.item_matrix[self.items_list.index(item1)][self.items_list.index(item2)] += 1/math.log(1+len(items))
                
        #计算物品相似度
        item_similer_list = dict()
        for item1 in self.items_list:
            item_similer_list[item1] = dict()
            for item2 in self.items_list:
                if item1 != item2:
                    #利用二维矩阵存储的物品相似度进行计算
                    item_similer_list[item1][item2] =round(self.item_matrix[self.items_list.index(item1)][self.items_list.index(item2)]/
                                                           (len(self.item_user_dict[item1]) * len(self.item_user_dict[item2]))**0.5,3)   
                    self.item_matrix[self.items_list.index(item1)][self.items_list.index(item2)] = item_similer_list[item1][item2]
        #物品相似度归一化
        self.item_matrix = self.item_matrix/self.item_matrix.max(axis = 1)
        return item_similer_list
    
    #计算指定用户的推荐物品
    def compute_interest_item(self,user):
        #物品相似度矩阵
        item_similer_list = self.computer_similer_backform_punish()
        recommend_item = dict()
        
        for item in self.items_list:
            recommend_item[item] = 0
            sort_coor = np.argsort(self.item_matrix[self.items_list.index(item)])[::-1][:3]
            for i in sort_coor :
                #对不在该用户的喜欢列表，但其相似物品在该用户物品列表的物品，进行计算
                if user in self.item_user_dict[self.items_list[i]] and user not in self.item_user_dict[item]:
                    recommend_item[item] += self.item_matrix[self.items_list.index(item)][i]

        
        #对推荐的物品按照感兴趣程度降序
        recommend_item = {k:v for k,v in sorted(recommend_item.items(), key = lambda item :item[1] ,reverse=True) if v != 0}
        return recommend_item



itemcf = ItemCF(user_item_dict)
print('两两物品之间计算物品相似度:')
print(itemcf.compute_similer_twouser())
print('优化后的倒查表方式计算物品相似度:')
print(itemcf.computer_similer_backform_normal())
print('惩罚活跃用户和倒查表方式计算物品相似度:')
print(itemcf.computer_similer_backform_punish())
print('推荐物品:')
print(itemcf.compute_interest_item('A'))