刚开始用 spark,很多东西不清楚,不过时间紧迫所以来请教下。
spark 的 rdd 能不能快速合并的?我现在有 30 分钟的数据需要滑动处理。每一分钟向前滑动一次,就是说 31 分的时候,读取 30-31 分钟的数据加进去,把 00-01 分钟的数据删除,那么我设想是构建 30 个 rdd,每一分钟一个。计算的时候合并这 30 个 rdd。请问这样的操作有没有?就那个合并的操作会不会很慢?
1
cstj0505 2018 年 6 月 14 日 看看 spark streaming 里面的 window 功能,不要自己去撸
再就是 rdd 是只读的,没有删除,只能新生成或者计算出来一个 |
2
VoidChen OP 顺便问下,刚看到有个分区的概念,不知能不能利用上
|
3
ywind 2018 年 6 月 14 日 via Android
按 1 分钟分片,按 30 分钟 window 聚合。
|
4
ywind 2018 年 6 月 14 日 via Android 分区概念是针对于每个 rdd 的,用不上
|