hyalone的个人博客分享 http://blog.sciencenet.cn/u/hyalone

博文

两个时期间差异对比的度量

已有 2470 次阅读 2015-5-16 08:24 |个人分类:数学|系统分类:科研笔记|关键词:学者

问题的提出

对于两个时期的观察数值A、B,他们之间变化程度的对比,如果用A做全体,B对A的变化是(B-A)/A,这个比例可能会大于1,如果A数值很小,比例会很大,但因为数值小可能并不一定是我们需要关注的。在多个比例对比排序时尤其会被这些数字误导。

 

方法来源

dice系数

Dice(A,B) = 2 * comm(A,B) / (A+B)

comm(A,B)表示A、B相同部分,对于数值型的A、B,即min(A,B)

转化为差异的度量

d(A,B) = 1 - 2 * comm(A,B) / (A+B) = abs(A-B) / (A+B)

 

应用分析

dice计算的差异会让比值为0到1之间的值,不至于发散没有可比性。再根据不同场合加上不同的权重,综合排序后会更有参考价值。

上级类目差异比较显著,想知道进一步关注哪些下一级类目差异时,既要考虑下一级类目差异占上级差异的比例,又要考虑下一级本身的差异变化比值,可以将两个比例相乘,用乘积排序来衡量下一级需要关注的先后顺序。

设上级观察数值为A、B,下级观察数值为A1,A2,...,An,B1,B2,...,Bn;下级差异占上级差异比例为(A1-B1)/abs(A-B),(A2-B2)/abs(A-B),...,(An-Bn)/abs(A-B);下级差异变化比值为abs(A1-B1)/(A1+B1),abs(A2-B2)/(A2+B2),...,abs(An-Bn)/(An+Bn)。

 

例子

日常的pv、uv变化,全站变化需要关注哪些栏目、车系等;某个车系的pv、uv变化异常,需要关注哪些来源。

来源6日pv13日pvpv变化(13日pv-6日pv)变化占比(pv变化/abs(总pv变化))差异dice比值(abs(pv变化)/(13日pv+6日pv))乘积用于排序(abs(变化占比)*差异dice比值)
112321775845-4737282.80%23.80%0.197032
4813535123377-5.90%92.60%0.054652
064178717567578-13.24%5.57%0.007384
16678225676-21463.75%15.90%0.005963
2071013418-5951.04%41.58%0.004324
22021731307-8661.51%24.89%0.003767
1532958-2710.47%70.03%0.003317
289 188188-0.33%100.00%0.003286
28773165797-15192.65%11.58%0.003075
239
12765
10884
-1881
3.29%
7.95%
0.002615
合计
445644
388428
-57216

   




https://m.sciencenet.cn/blog-867801-890547.html

上一篇:mapreduce计算范式与推拉技术
下一篇:多投入多产出的各投入比例决策方法(多目标转化为单目标)

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-19 07:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部