MS时序分析算法
- 它是针对连续值(如时间段内的销售额)进行预测的算法(其中包含多种优化后的算法)
- 时序算法的输入输出为同一列
- 时序模型中的重要算法参数
3.1. Periodicity_hint:该参数提供了有关数据模式重复频率的算法信息(以数据的时序的最小单位为基准,经过N个单位重复一次就设置为{n},如:以日为基准,周为循环的话就是{7},以月为循环就是{31},以周月为循环就是{7,31},以此类推)
3.2. Missing_Value_Substitution:填充历史数据中的确实,因为时序算法要求时序不能中断 - 时序分析模型提供了每一个序列类型根据数据内容形成决策树,推测每一个序列随着时间轴的进展所影响该序列的因素值
- 时序模型所需数据
5.1. 单个键时间列:必须唯一且连续
5.2. 可预测列:至少有一个可预测列,且必须为连续值
5.3. 可选序列键列:每个模型可包含一个可选的附加键列,就是可与时间列组成复合主键的列(如:产品、店铺等等,每个时间点每个产品只能出现一次) - 时序分析模型的建立
6.1. 创建时序分析模型挖掘结构视图,参考如下,这里包含了日期、店铺名、销售额
CREATE view [dbo].[v_DM_timeSeries]
as
select d.fullDate, s.storeName, sum(st.payAmount) saleAmount
from [dbo].[FactSaleDocTender] st
join [dbo].[DimDate] d on d.dateKey=st.dateKey
join [dbo].[DimStore] s on s.storeKey=st.storeKey
where s.storeName in(‘沃尔玛’,’华润万家’)
group by d.fullDate, s.storeName
6.2. 时序分析模型的建立参考决策树模型的建立(特别注意,在“指定定型数据”中,键勾选fullDate与storeName作为复合键,输入列、输出列都为saleAmount) - 挖掘模型查看器
7.1. 报错,因为两家店铺不是所有日期都有销售数据-》挖掘模型-》算法参数-》Missing_Value_Substitution设置为0,意思是各店铺缺失的日期的销售额默认为0-》再次切换到挖掘模型查看器
7.2. 图表:可以看到一个折线图,左边是历史数据,右边(阴影)处是预测数据-》点击后可通过图例来读取具体的数值,看了一下,好像不太靠谱
7.3. 切到挖掘模型-》算法参数-》Periodicity_Hint设置为“{7,31}”,意思是店铺的销售数据是以7天(周)为单位波动的,同时,以31天(月)为单位波动-》再切回挖掘模型查看器看看 - 截图