Spark foldbykey doubt

Question

val a= spark.sparkContext.parallelize(Array(("a",1),("a",2),("b",2)))
val b =a.foldByKey(1)(_+_)

scala> b.collect
res2: Array[(String, Int)] = Array((b,3), (a,5))

Can someone tell me why a value is 5 not 4?

Gitika · Answer 1 · Jun 19, 2019

Please have a look below for your reference.

(a,1) (a,2) => foldByKey(1)(_+_) => (a,1+1)+(a,2+1) => 2+3 = 5

(b,2) => foldByKey(1)(_+_) => (b,2+1) = 3

According to that logic, the value is 5.

answered Jun 19, 2019 by Tina

val a= spark.sparkContext.parallelize(Array(("a",1),("a",2),("b",2),("a",2)))

a: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:23

scala> val b =a.foldByKey(1)(_+_).collect

b: Array[(String, Int)] = Array((b,3), (a,7))

commented Mar 10, 2020 by anonymous

edited Mar 11, 2020 by Gitika

scala> val a= spark.sparkContext.parallelize(Array(("a",1),("a",2),("b",2),("b",3),("a",5)))

a: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[9] at parallelize at <console>:23

scala> val b =a.foldByKey(1)(_+_)

b: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[10] at foldByKey at <console>:25

scala> b.collect

res6: Array[(String, Int)] = Array((b,6), (a,10))

Q> Can anyone clarify me how the result is Array((b,6), (a,10)) instead of Array((b,7), (a,11))?