python项目--餐厅订单数据分析-CFANZ编程社区

导入包，加载数据

数据是网上获取的，数据见链接: 餐厅订单数据分析的数据.
通过分析之后我们要用到以下三个包，分别是numpy、pandas、matplotlib。加载数据我们采用pandas中的read_excel函数，由于该表中有三张小表，我们将这三张表都读取进来。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = 'SimHei'  # 设置中文显示
data1 = pd.read_excel("E:\下载\数据分析实战项目资料\餐厅\meal_order_detail.xlsx", sheet_name='meal_order_detail1')
data2 = pd.read_excel('E:\下载\数据分析实战项目资料\餐厅\meal_order_detail.xlsx', sheet_name='meal_order_detail2')
data3 = pd.read_excel('E:\下载\数据分析实战项目资料\餐厅\meal_order_detail.xlsx', sheet_name='meal_order_detail3')

数据预处理

因为三张表不方便操作且有些内容重复，所以使用pandas库中的concat函数将三张表的数据拼接起来，并用dropna方法将空的列给删掉

data = pd.concat([data1, data2, data3], axis=0)  # 按照行进行拼接数据
# 查看数据的前五列
print(data.head(5))
data.dropna(axis=1, inplace=True)  # 按照列删除na列，并且修改源数据
# 查看数据详情信息，有多少个非空值等
print(data.info())

分析数据–初步分析

统计卖出菜品的平均价格

print(round(data['amounts'].mean(), 2))  #方法一：pandas自带函数
print(round(np.mean(data['amounts']), 2))  #方法二：numpy函数处理

频数统计，最受欢迎的10个菜，并画出菜品和销量的条形图

dishes_count = data['dishes_name'].value_counts()[:10]
print(dishes_count)
dishes_count.plot(kind='line', color=['r'])
dishes_count.plot(kind='bar', fontsize=16)
for x, y in enumerate(dishes_count):
    print(x, y)
    plt.text(x, y + 2, y, ha='center', fontsize=12)
plt.show()

运行结果如下：

点菜的种类的top10订单

data_group = data['order_id'].value_counts()[:10]
data_group.plot(kind='bar', fontsize=16, color=['r', 'm', 'b', 'y', 'g'])
plt.title('订单点菜的种类Top10')
plt.xlabel('订单ID', fontsize=16)
plt.ylabel('点菜种类', fontsize=16)
plt.show()

订单ID点菜数量Top10

思路：先将id分组，得到数量金额总数，再分组求和，将分组求和得到的结果按降序排序，对top10画条形图。

data['total_amounts'] = data['counts'] * data['amounts']  # 统计单道菜消费总额
dataGroup = data[['order_id', 'counts', 'amounts', 'total_amounts']].groupby(by='order_id')
Group_sum = dataGroup.sum()  # 分组求和
sort_counts = Group_sum.sort_values(by='counts', ascending=False)  # 排序
sort_counts['counts'][:10].plot(kind='bar', fontsize=16)
plt.xlabel('订单ID')
plt.ylabel('点菜数量')
plt.title('订单ID点菜数量Top10')
plt.show()

订单消费金额Top10

sort_total_amounts = Group_sum.sort_values(by='total_amounts', ascending=False)
sort_total_amounts['total_amounts'][:10].plot(kind='bar')
plt.xlabel('订单ID')
plt.ylabel('消费金额')
plt.title('消费金额前10')
plt.show()

订单平均消费金额Top10

Group_sum['average'] = Group_sum['total_amounts'] / Group_sum['counts']
sort_average = Group_sum.sort_values(by='average', ascending=False)
sort_average['average'][:10].plot(kind='bar')
plt.xlabel('订单ID')
plt.ylabel('消费单价')
plt.title('订单消费单价前10')
plt.show()

订单平均消费金额Top10

Group_sum['average'] = Group_sum['total_amounts'] / Group_sum['counts']
sort_average = Group_sum.sort_values(by='average', ascending=False)
sort_average['average'][:10].plot(kind='bar')
plt.xlabel('订单ID')
plt.ylabel('消费单价')
plt.title('订单消费单价前10')
plt.show()

订单消费时间

思路：在订单下单时间中取出小时画图

data['hourcount'] = 1  # 新列，用作计数器
data['time'] = pd.to_datetime(data['place_order_time'])  # 将时间转换成日期类型存储
data['hour'] = data['time'].map(lambda x: x.hour)
gp_by_hour = data.groupby(by='hour').count()['hourcount']
gp_by_hour.plot(kind='bar')
plt.xlabel('小时')
plt.ylabel('点菜数量')
plt.title('点菜数与小时的关系图')
plt.show()

每天订餐数量

data['daycount'] = 1
data['day'] = data['time'].map(lambda x: x.day)  # 解析出天
gp_by_day = data.groupby(by='day').count()['daycount']
gp_by_day.plot(kind='bar')
plt.xlabel('8月份日期')
plt.ylabel('点菜数量')
plt.title('点菜数量与日期的关系图')
plt.show()

点菜量最大的前5天

gp_by_day[:5].sort_values(ascending=False).plot(kind='bar')
plt.xlabel('点菜量Top5')
plt.ylabel('点菜数量')
plt.title('点菜数量与日期Top5')
plt.show()

查看本月周几点餐人数最多

data['weekcount'] = 1
data['weekday'] = data['time'].map(lambda x: x.weekday())
gp_by_weekday = data.groupby(by='weekday').count()['weekcount']
gp_by_weekday.plot(kind='bar')
plt.xlabel('星期')
plt.ylabel('点菜数量')
plt.title('点菜数量与星期关系图')
plt.show()

查看本月周几点餐人数最多

data['weekcount'] = 1
data['weekday'] = data['time'].map(lambda x: x.weekday())
gp_by_weekday = data.groupby(by='weekday').count()['weekcount']
gp_by_weekday.plot(kind='bar')
plt.xlabel('星期')
plt.ylabel('点菜数量')
plt.title('点菜数量与星期关系图')
plt.show()

进一步分析

计算每日销售额，绘制折线图分析8月餐饮销售额趋势

# 计算销售额
data['price'] = data['counts'] * data['amounts']
# 将订餐日期与星期相对应
week = pd.DatetimeIndex(data['place_order_time'])
data['weekday'] = week.day_name()
# 将订餐日期与月份天数相对应
data['day'] = pd.DatetimeIndex(data['place_order_time']).day
data_gb = data[['day', 'price']].groupby(by='day')
# number .agg聚合日期和价格
number = data_gb.agg(np.sum)
print(number)
# 绘制折线图
plt.figure(figsize=(10, 7))
plt.scatter(range(1, 32), number, marker='D')
plt.plot(range(1, 32), number['price'])
plt.title('8月餐饮销售额趋势示意图')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.xticks(range(0, 32)[::7], range(0, 32)[::7])
plt.show()

运行结果如下：
分析：明显可以看出销售额有四个顶峰，说明这四个顶峰的两天可能是周末，也符合现状，在周末的销售额会更高。

更近一步分析这四个两天的时间段是不是周末。

# 计算星期一至星期日的销售额并绘制柱状图分析星期与销售额的情况。
data_gb = data[['weekday', 'price']].groupby(by='weekday')
# number .agg聚合星期和价格
outcome = data_gb.agg(np.sum)
print(outcome)
# 对星期进行排序操作
sort = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
outcome2 = outcome.loc[sort, 'price']
print(outcome2)
# 绘制柱状图
plt.bar(range(1, len(outcome2) + 1), outcome2, width=0.5, alpha=0.5)
plt.xticks(range(1, len(outcome2) + 1), outcome2.index)
plt.title('星期与销售额的数量情况')
for i, j in zip(range(1, len(outcome2) + 1), outcome2):
    plt.text(i, j, '%i' % j, ha='center', va='bottom')
plt.show()

运行结果如下：
分析：如图所示，销售额最好的那两天一定是周末

绘制圆环图分析星期与销售额占比情况

plt.figure(figsize=(5, 5))
plt.style.use('Solarize_Light2')
plt.pie(outcome2, labels=outcome2.index, autopct='%.2f %%', wedgeprops=dict(width=0.6, edgecolor='w'))
plt.title('星期销售额占比情况')
plt.show()

运行结果如下：
分析：周六和周天的销售额总和占整个月的六成，由此我们可以看出餐厅的盈利基本上是靠周末。

绘制气泡图查看时间，订单量，销售额的关系

data_gb = data[['order_id', 'price', 'day']].groupby(by='day')
# 定义sort函数，去除表格中的的重复数字，并进行排序。
def sort(data):
    return len(np.unique(data))

outcome3 = data_gb.agg({'price': np.sum, 'order_id': sort})
print(outcome3)

# 绘制气泡图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(10, 6))
plt.scatter(range(1, 32), outcome3['price'], s=outcome3['order_id'])
plt.title('订单量、销售额与时间的关系')
plt.xlabel('时间')
plt.ylabel('销售额')
plt.show()