Skip to main content
Narcis Miclaus
  • Home
  • Programmazione
  • Finanza
  • Strumenti
  • Lavoro
  • Chi sono
  • EN English
  • RO Română
  • EN English
  • RO Română
← Programmazione

PySpark

DataFrame distribuiti, join che non fanno esplodere il cluster, e le parti di Spark che mordono.

  • .cache() non è gratis — quando usarlo e quando è una trappola

    Pubblicato il 11 aprile 2026

    Il cache e il persist di Spark sembrano bottoni magici per le performance. Non lo sono. Ecco quando il caching aiuta davvero, quando peggiora le cose, e come capire la differenza.

    • #pyspark
    • #spark
    • #caching
    • #performance
  • Il partitioning: la cosa che silenziosamente ammazza il tuo job Spark

    Pubblicato il 11 aprile 2026

    Come i dati vengono distribuiti tra gli executor, perché il default è quasi sempre sbagliato, e la danza repartition/coalesce che ogni job Spark prima o poi deve affrontare.

    • #pyspark
    • #spark
    • #partitioning
    • #performance
  • Join PySpark che non fanno saltare il cluster

    Pubblicato il 10 aprile 2026

    Perché le join sono la principale fonte di dolore in Spark, cosa fa davvero lo shuffle, e i trucchi del broadcast e del salting che trasformano un job da 40 minuti in uno da 4.

    • #pyspark
    • #spark
    • #performance
    • #joins

Costruito con Astro — zero tracker, solo parole e numeri.

© 2026 Narcis Miclaus