|||
问题的提出
对于两个时期的观察数值A、B,他们之间变化程度的对比,如果用A做全体,B对A的变化是(B-A)/A,这个比例可能会大于1,如果A数值很小,比例会很大,但因为数值小可能并不一定是我们需要关注的。在多个比例对比排序时尤其会被这些数字误导。
方法来源
dice系数
Dice(A,B) = 2 * comm(A,B) / (A+B)
comm(A,B)表示A、B相同部分,对于数值型的A、B,即min(A,B)
转化为差异的度量
d(A,B) = 1 - 2 * comm(A,B) / (A+B) = abs(A-B) / (A+B)
应用分析
dice计算的差异会让比值为0到1之间的值,不至于发散没有可比性。再根据不同场合加上不同的权重,综合排序后会更有参考价值。
上级类目差异比较显著,想知道进一步关注哪些下一级类目差异时,既要考虑下一级类目差异占上级差异的比例,又要考虑下一级本身的差异变化比值,可以将两个比例相乘,用乘积排序来衡量下一级需要关注的先后顺序。
设上级观察数值为A、B,下级观察数值为A1,A2,...,An,B1,B2,...,Bn;下级差异占上级差异比例为(A1-B1)/abs(A-B),(A2-B2)/abs(A-B),...,(An-Bn)/abs(A-B);下级差异变化比值为abs(A1-B1)/(A1+B1),abs(A2-B2)/(A2+B2),...,abs(An-Bn)/(An+Bn)。
例子
日常的pv、uv变化,全站变化需要关注哪些栏目、车系等;某个车系的pv、uv变化异常,需要关注哪些来源。
来源 | 6日pv | 13日pv | pv变化(13日pv-6日pv) | 变化占比(pv变化/abs(总pv变化)) | 差异dice比值(abs(pv变化)/(13日pv+6日pv)) | 乘积用于排序(abs(变化占比)*差异dice比值) |
1 | 123217 | 75845 | -47372 | 82.80% | 23.80% | 0.197032 |
48 | 135 | 3512 | 3377 | -5.90% | 92.60% | 0.054652 |
0 | 64178 | 71756 | 7578 | -13.24% | 5.57% | 0.007384 |
166 | 7822 | 5676 | -2146 | 3.75% | 15.90% | 0.005963 |
207 | 1013 | 418 | -595 | 1.04% | 41.58% | 0.004324 |
220 | 2173 | 1307 | -866 | 1.51% | 24.89% | 0.003767 |
15 | 329 | 58 | -271 | 0.47% | 70.03% | 0.003317 |
289 | 188 | 188 | -0.33% | 100.00% | 0.003286 | |
287 | 7316 | 5797 | -1519 | 2.65% | 11.58% | 0.003075 |
239 | 12765 | 10884 | -1881 | 3.29% | 7.95% | 0.002615 |
合计 | 445644 | 388428 | -57216 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-6-19 07:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社