0
点赞
收藏
分享

微信扫一扫

HiveSQL大厂面试 各个视频的平均完播率

小猪肥 2022-04-01 阅读 24

题目说明

练习题目来自牛客网sq在线编程 大厂面试题各个视频的平均完播率_牛客题霸_牛客网 (nowcoder.com)

测试用例

create database nk_test;  //创建数据库
use nk_test;    //进入数据库

// 创建表
DROP TABLE IF EXISTS tb_user_video_log;
DROP TABLE IF EXISTS tb_video_info;
CREATE TABLE tb_user_video_log (
    id INT,
    uid INT,
    video_id INT,
    start_time timestamp,
    end_time ,
    if_follow TINYINT,
    if_like TINYINT,
    if_retweet TINYINT,
    comment_id INT
);

CREATE TABLE tb_video_info (
    id INT,
    video_id INT,
    author INT,
    tag string,
    duration INT,
    release_time date
);

// 插入数据
INSERT INTO tb_user_video_log(id, uid, video_id, start_time, end_time, if_follow, if_like, if_retweet, comment_id) VALUES
  (1, 101, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:30', 0, 1, 1, null),
  (2, 102, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:24', 0, 0, 1, null),
  (3, 103, 2001, '2021-10-01 11:00:00', '2021-10-01 11:00:34', 0, 1, 0, 1732526),
  (4, 101, 2002, '2021-09-01 10:00:00', '2021-09-01 10:00:42', 1, 0, 1, null),
  (5, 102, 2002, '2021-10-01 11:00:00', '2021-10-01 11:00:30', 1, 0, 1, null);

INSERT INTO tb_video_info(id, video_id, author, tag, duration, release_time) VALUES
  (1, 2001, 901, '影视', 30, '2021-01-01 7:00:00'),
  (2, 2002, 901, '美食', 60, '2021-01-01 7:00:00'),
  (3, 2003, 902, '旅游', 90, '2021-01-01 7:00:00');

描述

用户-视频互动表tb_user_video_log

iduidvideo_idstart_timeend_timeif_followif_likeif_retweetcomment_id
110120012021-10-01 10:00:002021-10-01 10:00:30011NULL
210220012021-10-01 10:00:002021-10-01 10:00:24001NULL
310320012021-10-01 11:00:002021-10-01 11:00:340101732526
410120022021-09-01 10:00:002021-9-01 10:00:42101NULL
510220022021-10-01 11:00:002021-10-01 11:00:30101NULL

(uid-用户ID, video_id-视频ID, start_time-开始观看时间, end_time-结束观看时间, if_follow-是否关注, if_like-是否点赞, if_retweet-是否转发, comment_id-评论ID)

短视频信息表tb_video_info

idvideo_idauthortagdurationrelease_time
12001901影视302021-01-01 07:00:00
22002901美食602021-01-01 07:00:00
32003902旅游902021-01-01 07:00:00

(video_id-视频ID, author-创作者ID, tag-类别标签, duration-视频时长(秒), release_time-发布时间)

问题:计算2021年里有播放记录的每个视频的完播率(结果保留三位小数),并按完播率降序排序

:视频完播率是指完成播放次数占总播放次数的比例。简单起见,结束观看时间与开始播放时间的差>=视频时长时,视为完成播放。

输出示例

示例数据的结果如下:

video_idavg_comp_play_rate
20010.667
20020.000

解释:

视频2001在2021年10月有3次播放记录,观看时长分别为30秒、24秒、34秒,视频时长30秒,因此有两次是被认为完成播放了的,故完播率为0.667;

视频2002在2021年9月和10月共2次播放记录,观看时长分别为42秒、30秒,视频时长60秒,故完播率为0.000。

解决方案

mysql写法

SELECT t1.video_id,
ROUND(sum(if(t1.end_time-t1.start_time>=t2.duration,1,0))/count(t1.video_id),3) as avg_comp_play_rate
FROM tb_user_video_log as t1
LEFT JOIN tb_video_info as t2
USING(video_id)
WHERE year(start_time)=2021 
GROUP BY t1.video_id
ORDER BY avg_comp_play_rate DESC;

HiveSQL写法

SELECT t1.video_id,
ROUND(sum(if(unix_timestamp(t1.end_time)-unix_timestamp(t1.start_time)>=t2.duration,1,0))/count(t1.video_id),3) as avg_comp_play_rate
FROM tb_user_video_log as t1
LEFT JOIN tb_video_info as t2
on t1.video_id=t2.video_id
WHERE year(start_time)=2021 
GROUP BY t1.video_id
ORDER BY avg_comp_play_rate DESC;

在这里插入图片描述

方案分析

​ 计算2021年里有播放记录的每个视频的完播率(结果保留三位小数),并按完播率降序排序。

​ 题目中说到有播放记录的视频,通过观察 tb_user_video_log表为播放记录表,所以我们使用第一个表为主表进行左连接就可以过滤没有播放记录的视频。

FROM tb_user_video_log as t1
LEFT JOIN tb_video_info as t2
on t1.video_id=t2.video_id

完播率:

视频2001在2021年10月有3次播放记录,观看时长分别为30秒、24秒、34秒,视频时长30秒,因此有两次是被认为完成播放了的,故完播率为0.667;

视频2002在2021年9月和10月共2次播放记录,观看时长分别为42秒、30秒,视频时长60秒,故完播率为0.000。

从题目给的解释中可以看出,当播放时长大于等于视频时长时为完播。对完播的视频进行计数除以总播放数就可以得到播放率。

sum(if(unix_timestamp(t1.end_time)-unix_timestamp(t1.start_time)>=t2.duration,1,0))/count(t1.video_id)

代码中使用了unix_timestamp函数(这是hive的一个时间函数其他时间函数地址:https://blog.csdn.net/m0_47792921/article/details/123892566),这个函数的作用是将时间转换为时间戳,在hive中如果直接使用时间相减是不行的,如果直接使用时间相减的结果也会是一个时间格式的数据不能与数字类型进行比较。所以我们要将时间转化成时间戳进行相减进行比较。使用sum和if

函数进行配合得出完播数。使用count计算所有的播放记录。最后使用round保留三位小数

在这里插入图片描述

使用year函数取出年份过滤数据,使用group by对视频进行分组。

WHERE year(start_time)=2021 
GROUP BY t1.video_id

问题总结

​ 在没有发现问题之前,我创建表格使用的时间格式为date,当我把时间转换成时间戳的时候才发了大问题,因为date格式只包括年月日,不包含小时分钟和秒。

​ 如图(开始我以为是没有时间格式使用了to_date 是错误的to_date也会忽略分钟和秒)所示我传入的时间包含了小时分钟和秒,但是由于设计表时时间格式为date就自动忽略了小时分钟秒。最后我将时间格式改为时间戳的类型 timestamp 我才恍然大悟。

在这里插入图片描述

我以为是没有时间格式使用了to_date 是错误的to_date也会忽略分钟和秒)所示我传入的时间包含了小时分钟和秒,但是由于设计表时时间格式为date就自动忽略了小时分钟秒。最后我将时间格式改为时间戳的类型 timestamp 我才恍然大悟。

在这里插入图片描述

与mysql相比可以发现当时间相减的时候mysql返回的是数字类型可以和数字进行比较,然后hive相减还是时间不能与数字进行比较

举报

相关推荐

0 条评论