0
点赞
收藏
分享

微信扫一扫

pandas的相关系数,并绘制饼图

yongxinz 2023-02-02 阅读 77


import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname="C:/Windows/Fonts/msyhbd.ttc")
file = "D:/python/电影票房/10231_20190831.xlsx";
data = pd.read_excel(file,index_col=u'日期')
print(data.describe())
#print(data)
#研究单日票房与上映天数的关系
print(data[u'当日票房(万美元)'].corr(data[u'上映天数']))
#研究累计票房与上映天数的关系
print(data[u'累计票房(万美元)'].corr(data[u'上映天数']))
#研究爆款电影对总票房的贡献
data1=data[u'累计票房(万美元)'].sort_values()
#取票房前八百的汇总
data2=data1.tail(800)
sum =data2.sum()
el = data1.sum()
colors = {'yellowgreen', 'lightskyblue'}
labels = '爆款票房', '非爆款'
size1 =(int)((sum/el)*100)
print("*"*70,size1)
size2=100-size1
size = [size1, size2]
#突出爆款电影
explode = (0.1, 0)
#中文图标
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.pie(size, explode=explode, labels=labels,colors=colors,shadow=True,startangle=90,autopct='%1.1f%%')
plt.axis('equal')
plt.show()

pandas的相关系数,并绘制饼图_python


从运行结果可看出累计票房与上映天数的关系和累计票房与上映天数的关系,前者呈现正相关,后者呈现负相关 和生活常识相符,但都相关度不高,也符合规律

pandas的相关系数,并绘制饼图_python_02

从饼图可看出排名前800的票房占到7%,这是收到部分电影上映天数较多的影响,许多票房累计较为接近,但在104979个电影中取得这个成绩也算尚可
数据下载地方在聚合数据的北美票房

https://www.juhe.cn/search/%E7%A5%A8%E6%88%BF

pandas的相关系数,并绘制饼图_python_03


举报

相关推荐

0 条评论