02通过数据可视化拆解问题
Fig_01 散点矩阵图
这张图(fig_01散点矩阵图)记录了数据的分布情况,可以用来观察数据簇之间的关系。 使用平均价格/收盘价/交易量/交易数量。 在这个实验中,我们希望找到成交量和价格之间的关系,并以价格变化作为颜色分类的依据(昨天的价格-今天的价格)。 如果为正,则显示为黄色,如果为负,则显示为蓝色,紫色表示幅度太小。 数据。 其实不难看出,在两个量的关系图中,上升和下降着色的分布并不理想,几乎是一团糟。 由此可见,价格涨幅与成交量之间不存在显着的线性关系。
为了过滤掉一些波动较小的数据,中间使用了一个滤波器,过滤范围为±0.03。 使用的数据是零标准化数据。 代码稍后会展示。
图02 Pearson相关系数矩阵热图
图03 Pierce相关系数矩阵
上面两张图都是皮尔逊相关系数矩阵。 不难发现,红框圈出的部分是整个矩阵中相关性最高的区域,也就是归一化后显示的数据。 但不难看出,相关性依然不理想(相关系数矩阵中,一般认为X<0.9表示相关性强,X<0.7表示相关性强,X<0.3表示相关性弱)。
不难看出,两个定量数据之间存在很强的相关性。 五个与价态相关的数据保持强相关性,在它们之间形成一个数据簇。 但坏消息是,任何组中任何数量和任何价格之间的相关性均未发现超过 0.7。 当然,我们一开始就说过,相关系数矩阵只代表线性相关。 如果出现指数或其他类型的数据,则皮尔逊系数矩阵将无效。
图04 列联表交易量和平均价格
图05 交易量和平均价格百分比条形图
这是将数据进行上下划分后得到的列联表的结果。 由于P值远小于0.001,因此确定平均价格变化的数量和方向之间存在关系。 (amount_change_boll为交易量变化方向,average_change_boll为均价变化方向)
但我们来看另一组数据
图06 均价与收盘价列联表
图07 百分比条形图均价和收盘价
显着性也很强,p值远小于0.001,但卡方值是前一组数据的数倍。 在皮尔逊相关系数矩阵中,我们看到均价和收盘价是强相关的(0.99(左右),从百分比分布图不难看出,数据分布非常好(有些人会说你的自由度不同,谈论卡方值有意义吗?虽然自由度不同,但在百分比分布图中,我想不难看出这种可见的相关性。肉眼。)
03 通过折线图和数据分布分析相关性
从数据偏差可以看出,单纯对数据进行标准化处理效果并不显着。 而且两组数据都没有形成正态分布(感觉里面有什么奇怪的地方,也可能是由于数据分组导致数据分布有偏差。)
图08 归一化数据的直方图和箱线图
另外,我们还可以通过观察折线图来观察数据配对情况。 与我们之前的假设一致,价格和成交量是相对独立的数据集,它们之间不存在显着的相关性。
图09 用标准化数据绘制的折线图
我们再尝试几组数据,看看是否有改善。 这组数据是经过0归一化后的变化关系。
不难看出数据分布好了很多。 基本复合正态分布。 也为后续的F检验和T检验做准备。
图10 归一化变化数据分布图
从排序图中还可以看出,当成交量剧烈波动时,价格可能会上涨或下跌。 人们普遍认为价格会随着数量的增加而上涨。 但成交量变化的幅度确实会对价格变化的幅度产生影响。 简单来说,交易量变化越大,价格变化就越显着。
图11 归一化后变化数据折线图
最后,我们来看看_change。 该分布不如标准化数据,因此我们不讨论它。
图12 数据变化分布图
这里折线图,结论和之前基本一样,所以在下面的讨论中,我们主要讨论sdl数据集的变化。
图13 变化折线图
现在我们进行T/F测试,分别观察数据分布。
amount_change_sdl:close_change_sdl t_teststatistic ---- 4.16104419171744e-16pvalue ------ 0.999999999999997amount_change_sdl:close_change_sdl f_scorestatistic ----- 2.4215382632235914e-31pvalue ------ 1.0a 安装_change_sdl:average_change_sdl t_teststatistic ----- 7.950662705260882 e -16pvalue ------ 0.9999999999999993amount_change_sdl:average_change_sdl f_scorestatistic ------ 5.736861932389497e-31pvalue ------- 1.0volume_change_sdl:close_change_sdl t_teststatistic ------ -1.74049713926947 68e-16p值--- - --- 0.999999999999999volume_change_sdl:close_change_sdl f_scorestatistic ------ -7.048703289584828e-32pvalue ---------- nanvolume_change_sdl:average_change_sdl t_teststatistic ------- 2.0491213742739632e-16 -------- - 0.99999999999999999 volume_change_sdl:average_change_sdl f_scorestatistic ------- -2.699235351609955e-31pvalue -------- 无
因此,成交量增加价格上涨、成交量减少价格下跌的观点并不成立。 不过,成交量波动确实对价格有影响,但绝不是纯粹的线性影响。 后期会逐步完善。