PySpark · Programmazione · Narcis Miclaus

.cache() non è gratis — quando usarlo e quando è una trappola

Pubblicato il 11 aprile 2026

Il cache e il persist di Spark sembrano bottoni magici per le performance. Non lo sono. Ecco quando il caching aiuta davvero, quando peggiora le cose, e come capire la differenza.
- #pyspark
- #spark
- #caching
- #performance
Il partitioning: la cosa che silenziosamente ammazza il tuo job Spark

Pubblicato il 11 aprile 2026

Come i dati vengono distribuiti tra gli executor, perché il default è quasi sempre sbagliato, e la danza repartition/coalesce che ogni job Spark prima o poi deve affrontare.
- #pyspark
- #spark
- #partitioning
- #performance
Join PySpark che non fanno saltare il cluster

Pubblicato il 10 aprile 2026

Perché le join sono la principale fonte di dolore in Spark, cosa fa davvero lo shuffle, e i trucchi del broadcast e del salting che trasformano un job da 40 minuti in uno da 4.
- #pyspark
- #spark
- #performance
- #joins