||||
mapreduce计算模式深入人心,不过在使用中还是有点遗憾。shuffling后的结果多次复用好像不方便。
计算范式可以考虑做如下扩展:
1、增加shuffling后的mapper,可以对数据进行转换,这样可以利用本地保存数据做转换,避免大集群上的join操作;
2、增加pusher,shuffling后数据转换后,可以多次消费,前面宝贵的mapper、shuffling成果不需头做。
在shuffling前的处理适合用拉数据,shuffling后的处理适合用推数据,但内部实现不必强制。mapper也可以包含一对多、多对一的可能。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-6-19 06:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社