PySpark
DataFrame distribuiti, join che non fanno esplodere il cluster, e le parti di Spark che mordono.
-
.cache() non è gratis — quando usarlo e quando è una trappola
Il cache e il persist di Spark sembrano bottoni magici per le performance. Non lo sono. Ecco quando il caching aiuta davvero, quando peggiora le cose, e come capire la differenza.
-
Il partitioning: la cosa che silenziosamente ammazza il tuo job Spark
Come i dati vengono distribuiti tra gli executor, perché il default è quasi sempre sbagliato, e la danza repartition/coalesce che ogni job Spark prima o poi deve affrontare.
-
Join PySpark che non fanno saltare il cluster
Perché le join sono la principale fonte di dolore in Spark, cosa fa davvero lo shuffle, e i trucchi del broadcast e del salting che trasformano un job da 40 minuti in uno da 4.