1、理论

1.1、定义

AARRR模型因其掠夺式的增长方式也被称为海盗模型，核心就是AARRR漏斗模型，对应客户生命周期帮助大家更好地理解获客和维护客户的原理。

1.2、AAARR解释

在这里插入图片描述

AAARR模型形成了一个闭环，即自己成为用户后，进行传播给好友，好友成为用户后，继续传播给好友的好友，以此成为指数增长趋势。

1.2.1、Acquisition [获取]

app上线之后，最重要的就是用户了，没有用户，app很难获得收益，而且很有可能令app下线。通过各种推广渠道来获取新用户，并对获客渠道进行评估，看看哪个渠道获客量最大，以重视该渠道，减少获客成本（CAC）。
指标：日新增用户数、注册转化率分析（注册完是否消费了）
解决问题：渠道贡献率（哪个渠道获客少的就可以舍掉了），优化推广策略

1.2.2、Activation [激活]

很多用户可能是被动进入应用的（例如浏览网页时误点了，或者是app进入封面时的广告），如何把他们转化为活跃用户就是运营者的一大问题。此外还有些应用会通过良好的新手教程吸引用户（游戏app常见）。
指标：日活跃用户数（DAU）、月活跃用户数（MAU）、日均使用时长、用户每月访问app的平均天数（DAU\MAU ）
解决问题：用户活跃率分析、活跃用户规模、一天中哪个时间段最活跃

1.2.3、Retention [存留]

活跃度解决后，就要研究用户的留存率了，有些用户来的快走的也快即每有用户粘性（留不住人）。很多应用确实并不清楚用户是在什么时间流失的，他们不断获取新用户，同时大量老用户又流失。而且获取新用户的获客成本要远远高于留住老客户。因此我们就要研究如何留住老用户。留存率时产品质量的重要标准。
指标：次日、三日、七日留存率（过了多久还剩下多少老用户）；流失率；复购率等
解决问题：app质量评估、留存用户特征分析、流失用户分析

1.2.4、Revenue [收益]

获取收入才是运营最关心的一块了。收益来源也有很多，例如付费应用、应用内付费（游戏皮肤）、以及广告（微博封面推广）。无论是哪种都是源于用户，因此前面提到的获客，留存等非常重要，有用户才有钱挣。
指标：付费率(付费用户/活跃用户)、付费用户规模、用户人均收入、生命周期价值(用户从注册到不再使用app创造的平台收入)
解决问题：付费转化率效果评估、付费用户分析、获客渠道质量分析

1.2.5、 Referral [传播]

以前的运营模型到第四个层次就结束了，但是社交网络的兴起，使得运营增加了一个方面，就是基于社交网络的病毒式传播，这已经成为获取用户的一个新途径。这个方式的成本很低，而且效果有可能非常好。（拼多多砍一刀、邀请新用户得钱）
指标：K因子，K＝（每个用户向他的朋友们发出的邀请的数量）×（接收到邀请的人转化为新用户的转化率）；
- K>1时，用户群就会像滚雪球一样增大，指数增长。
- K<1时，用户群到某个规模时就会停止通过自传播增长。

以上是AARRR模型的数据指标体系。建立完善的数据指标体系，我们后续才可以对用户行为进行更全面的分析。

二、AAARR模型python实战

2.1、数据预处理

本数据集（来自天池）共有大约1200万条数据，数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据，共6列字段，列字段分别是：
user_id：用户身份，脱敏
item_id：商品ID，脱敏
behavior_type：用户行为类型（包含点击、收藏、加购物车、支付四种行为，分别用数字1、2、3、4表示）
user_geohash：地理位置
item_category：品类ID（商品所属的品类）
time：用户行为发生的时间

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

data = pd.read_csv('E:/a学习材料/excel +sql++/双十二/tianchi_mobile_recommend_train_user.csv')
# 删除重复值
data.drop_duplicates(inplace=True)
# 重置索引
data = data.reset_index(drop=True)
# 将time列转为日期格式
data['time'] = pd.to_datetime(data['time'])
data['date'] = data['time'].dt.date
data['hour'] = data['time'].dt.hour
#将item_id和item_category转换成str
data['item_id'] = data['item_id'].astype(str)
data['item_category'] = data['item_category'].astype(str)
data.drop('time',axis=1,inplace=True)
data['date'] = pd.to_datetime(data['date'])
data.info()
data.head()

在这里插入图片描述

2.2、活跃度分析

day_act = pd.DataFrame()
day_act['日活'] = data.groupby('date')['user_id'].nunique()
plt.figure(figsize=(12,5))
plt.plot(day_act.index,day_act['日活'],c='r')
plt.xticks(pd.date_range('2014-11-18','2014-12-18',15))
plt.gcf().autofmt_xdate()
plt.show()

在这里插入图片描述

结论：在12月5日之前，活跃度在一定水平上波动。12月5日后，活跃度开始明显上升，并在双十二当天达到峰值。
可能原因：12月5日之后双十二预热活动开始，用户活跃度上升。

hour_act = pd.DataFrame()
hour_act['时活'] = data.groupby('hour')['user_id'].nunique()
plt.figure(figsize=(12,5))
plt.plot(hour_act.index,hour_act['时活'],c='r')
plt.xticks(np.arange(len(hour_act)),hour_act.index,size=13)
plt.gcf().autofmt_xdate()
plt.show()

在这里插入图片描述

结论：双十二当天0点和18点之后淘宝用户活跃度较高，凌晨4点活跃人数最低。
建议：商家可以在18点后设置优惠券或采取其他促销手段，吸引更多人消费，提高购买率。

2.3、复购率分析

2.3.1、用户购买次数直方图分布

user_buy_cnt = data[data['behavior_type']==4].groupby('user_id')['behavior_type'].count()
user_buy_cnt.plot(kind='box') # 从箱线图可以看出购买次数>100次的用户很少，因此画直方图只研究100次以内的用户

在这里插入图片描述

plt.figure(figsize=(12,5))
# 仅选取购买次数在100次以内的, 100次以外的用户太少; 将0—100划分为20个区间
plt.hist(user_buy_cnt[user_buy_cnt.values<100].values,bins=20) 
plt.xticks(np.arange(0,100,5))
plt.show()

在这里插入图片描述

属于长尾分布，购买次数为0—5次的用户最多，其次就是5—20次，购买次数大于50次的人数很少。

2.3.2、复购率 = 购买次数大于1的用户数量/有购买行为的用户总数

# 选出购买过产品的用户，按照用户分组，计算购买次数
user_buy = data[data['behavior_type']==4].groupby('user_id')['behavior_type'].count()  
user_more_buy = len(user_buy[user_buy.values>1])/len(user_buy)
user_more_buy  # 0.9144  复购率=91.44% 11-18到12-18间的复购率挺高