PySpark
DataFrame-uri distribuite, join-uri care nu aruncă clusterul în aer și părțile din Spark care mușcă.
-
.cache() nu e gratis — când să-l folosești, când e o capcană
Cache și persist din Spark sună ca niște butoane magice de performanță. Nu sunt. Iată când caching-ul chiar ajută, când face lucrurile mai rele și cum faci diferența.
-
Partiționarea: lucrul care îți omoară job-ul Spark pe tăcute
Cum se împart datele între executoare, de ce valoarea implicită e aproape mereu greșită și dansul repartition/coalesce de care fiecare job Spark are nevoie până la urmă.