Caso reale: come Netflix esegue il batch giornaliero su petabyte di dati

Il Modulo 5 si chiude come si era chiuso il Modulo 4: con una singola azienda, un singolo decennio, e post di engineering pubblici che rendono concrete le astrazioni. Il caso Discord nella lezione 32 era un singolo workload che girava su tre database nel corso di dieci anni. Il caso Netflix è strutturalmente diverso. La piattaforma batch di Netflix non è un singolo workload; è una piattaforma su cui migliaia di job e decine di team girano ogni giorno, su centinaia di petabyte di dati. La parte interessante non è il data model. È la piattaforma stessa: l’orchestratore, il table format, e i layer di ottimizzazione dei costi che rendono il batch giornaliero a questa scala economicamente possibile.

Tre pezzi dell’architettura sono abbastanza pubblici da poterli percorrere. Maestro è l’orchestratore. Apache Iceberg, che Netflix ha inventato e rilasciato in open-source, è il table format. E un insieme stratificato di tecniche (spot instance, autoscaling, caching, compaction) tiene il conto gestibile. Le lezioni contano più degli strumenti specifici.

La scala

Numeri da post pubblici e talk di conferenze, aggiornati al 2024-2025. La data platform di Netflix conserva centinaia di petabyte su Amazon S3, in tabelle Iceberg, che coprono telemetria di visualizzazione, metadati dei contenuti, training data per i recommendation system, risultati di A/B test, dati finanziari, telemetria del piano ad-supported, e log operativi dell’infrastruttura di streaming.

Sopra a quello storage, Netflix esegue molte migliaia di batch job al giorno in Spark, Trino, Flink, e workflow SQL. Circa tremila persone all’interno dell’azienda interagiscono con la piattaforma regolarmente. La piattaforma è multi-tenant, con workload molto diversi e sensibilità diverse a latenza, costo, e affidabilità.

La spesa annuale per la data platform è nell’ordine delle centinaia di milioni di dollari. Singoli progetti di riduzione costi hanno fatto risparmiare decine di milioni ciascuno. A questa scala, un miglioramento di efficienza dell’uno per cento equivale a un vero headcount di tempo ingegneristico. L’ottimizzazione dei costi non è un side project; è una disciplina.

Maestro: l’orchestratore

Ogni batch platform ha bisogno di un orchestratore. Airflow, Prefect, Dagster, Argo, Temporal, e una dozzina di player minori coprono lo spazio open-source. Per la maggior parte dei team la risposta giusta è prenderne uno già pronto. Netflix non l’ha fatto.

Prima di Maestro, Netflix gestiva un sistema fatto in casa chiamato Meson, costruito sopra Genie, e prima ancora una serie di tool interni. Verso la fine degli anni 2010, Meson stava arrancando: il modello di definizione dei workflow era difficile da comporre su scala, lo scheduler aveva problemi di performance con migliaia di run concorrenti, e la storia della multi-tenancy era cresciuta in modo organico piuttosto che progettato.

Maestro, annunciato e rilasciato in open-source nel 2024 nel post del Netflix Tech Blog “Maestro: Netflix’s Workflow Orchestrator” (https://netflixtechblog.com/maestro-netflixs-workflow-orchestrator-ee13a06f9c78, consultato 2026-05-01), è la riscrittura. Tre proprietà spiccano.

Composizione dei workflow. Maestro modella i workflow come DAG di step, con composizione di prima classe di workflow a partire da altri workflow. Quando molti team condividono una piattaforma, i building block riusabili devono comporsi senza copia-incolla ed essere versionati man mano che i loro autori li evolvono. Gli orchestratori pronti all’uso gestiscono questa cosa con grazia variabile; alla scala di Netflix la grazia è load-bearing.

Multi-tenancy e isolamento. Una singola istanza di Maestro esegue workflow per molti team con priorità diverse. È costruita per schedulare in modo equo, isolare i vicini rumorosi, e applicare quote per team senza un deployment separato per ogni team. Il tipo di proprietà che è invisibile finché non ne hai bisogno e poi diventa l’intera ragione di esistere del sistema.

Scala dello scheduler. Centinaia di migliaia di workflow run al giorno su uno scheduling tier stateless con un durable state store e un design event-driven. Airflow a questa scala richiede tuning attento e meta-scheduling; Maestro è progettato per questo dall’inizio.

La lettura onesta: Netflix ha costruito Maestro perché le opzioni già pronte non si adattavano alla loro specifica scala, multi-tenancy, e cultura. Una ragione difendibile che non si generalizza. La maggior parte dei team dovrebbe scegliere Airflow o Prefect o Dagster, configurarli bene, e mettere lo sforzo ingegneristico nei dati. La storia di Maestro è qui per illustrare il calcolo, non la conclusione. Build-versus-buy al livello della piattaforma è una decisione vera, e la soglia oltre la quale “build” vince è molto più alta di quanto la maggior parte dei team pensi.

Iceberg: il table format

Apache Iceberg è nato in Netflix. Ryan Blue e Daniel Weeks, allora ingegneri Netflix, lo progettarono nel 2017 per risolvere un problema che chiunque facesse girare Hive su scala petabyte aveva: l’approccio dell’Hive metastore ai metadati delle tabelle stava cedendo. Il talk allo Strata 2018 e i successivi post del Netflix Tech Blog descrivono i failure mode in dettaglio. La documentazione ufficiale a https://iceberg.apache.org/ (consultata 2026-05-01) copre l’origine e il formato.

I problemi principali con Hive su scala, nell’esperienza di Netflix:

Niente write atomiche. Una tabella Hive è “l’insieme dei file in questo prefisso S3 che combaciano con questo pattern di partizione”. Un writer che aggiunge file e un reader che lista file fanno race tra loro. A scala piccola questo è invisibile; a scala petabyte la race condition produce read parzialmente scritte, righe perse, e query che restituiscono risposte diverse a seconda di quando sono partite. Il fix di Hive erano convenzioni e disciplina; Netflix aveva bisogno di correttezza.

Schema evolution che non funzionava. Rinominare una colonna o cambiare un tipo in una tabella Hive era un esercizio manuale che spesso rompeva i reader più vecchi, soprattutto quando il file format aveva opinioni proprie (nomi di colonne Parquet, schema Avro). Netflix aveva migliaia di tabelle e centinaia di writer; l’approccio manuale non scalava.

Operazioni sui metadati lente. Listare le partizioni di una grande tabella Hive richiedeva di listare S3, che alla scala di Netflix era lento e costoso. Il query planning che aveva bisogno di partition pruning era collo di bottiglia sul listing.

Iceberg fa della tabella stessa un oggetto strutturato: file di dati immutabili, più un albero di metadati (manifest list, manifest, snapshot) che registra esattamente quali file appartengono alla tabella in ogni momento nel tempo. Le write producono nuovi snapshot in modo atomico. La schema evolution è registrata nei metadati, quindi i reader vecchi e nuovi vedono viste consistenti. Il query planning legge metadati, non listing di S3, ed è veloce indipendentemente dalla dimensione della tabella.

L’adozione da parte di Netflix è stata prima interna (migrare petabyte di tabelle Hive nel corso di diversi anni) e poi esterna (donare il progetto alla Apache Software Foundation nel 2018, ripreso da Snowflake, Databricks, AWS, e Google).

Questa storia conta per il Modulo 5 come l’esempio più pulito di “le scelte di formato contano su scala”. Hive ha funzionato per Netflix per anni; il dolore che ha guidato l’investimento in Iceberg era operativo e visibile solo a scala petabyte. Una volta che Netflix l’ha risolto, l’industria ha ereditato la soluzione. Netflix è stata esplicita, nei talk, sul fatto che l’adozione larga è una vittoria strategica, non una perdita competitiva: più tool, più bug fix, più interoperabilità, più ingegneri che già conoscono il formato.

I layer di ottimizzazione dei costi

L’ottimizzazione dei costi è il terzo pilastro della piattaforma, accanto all’orchestratore e al table format. I post pubblicati coprono diverse tecniche che ricorrono anche a scale più piccole.

Spot instance e autoscaling. Netflix esegue il grosso dei suoi workload Spark su capacità AWS Spot, che è circa il 60-90 per cento più economica di on-demand al costo di essere interrompibile. Spark si presta bene allo spot perché i task sono piccoli e ri-eseguibili e lo scheduler tollera di perdere executor a metà run. Il layer di autoscaling aggiunge e rimuove capacità dinamicamente in base alla coda di job in attesa, così i cluster non restano fermi di notte e non vanno surriscaldati durante il picco mattutino.

Compaction di Iceberg. Le streaming write e gli aggiornamenti batch frequenti producono molti piccoli file nelle tabelle Iceberg, il che danneggia la performance delle query (più file open, più metadati, scan di colonne meno efficienti). La compaction periodicamente riscrive i piccoli file in file più grandi. Alla scala di Netflix questo è di per sé un workload batch significativo, eseguito dal team di piattaforma per conto di tutti i tenant. Il costo della compaction è reale; il costo di non compattare è più grande.

Caching dei risultati delle query. Il versioning basato su snapshot di Iceberg rende “i dati sono cambiati” una domanda economica (confronta lo snapshot ID), quindi l’invalidazione della cache è precisa invece che basata sul tempo. Una dashboard che esegue la stessa query ogni cinque minuti può fare hit sulla cache per ore se i dati sottostanti vengono ricostruiti di notte.

Routing intelligente tra engine. Spark per ETL pesanti, Trino per analytics interattive, Flink per lo streaming. Le caratteristiche di costo differiscono, e instradare una query verso l’engine giusto è di per sé un’ottimizzazione. Iceberg come unified table layer permette di fare la scelta dell’engine per query.

I numeri sono pubblicamente sfocati (Netflix non pubblica la sua bolletta AWS), ma i talk in conferenza includono affermazioni come “questa iniziativa ha fatto risparmiare decine di milioni all’anno” per singoli progetti. L’ordine di grandezza è ciò che conta: a scala petabyte, un guadagno di efficienza dell’uno per cento su una spesa di cento milioni di dollari ripaga gli ingegneri che hanno costruito l’ottimizzazione molte volte.

L’architettura, in un diagramma

flowchart LR
    subgraph Storage[Storage layer]
      S3[(S3)]
      ICE[Iceberg metadata]
      S3 --- ICE
    end
    subgraph Compute[Compute engines]
      SP[Spark]
      TR[Trino]
      FL[Flink]
    end
    subgraph Orch[Orchestration]
      M[Maestro]
    end
    subgraph Cost[Cost layers]
      SPOT[Spot autoscaling]
      COMP[Compaction]
      CACHE[Result caching]
    end
    subgraph Consumers[Consumers]
      BI[BI and dashboards]
      ML[ML training]
      BIZ[Business and finance]
    end
    ICE --> SP
    ICE --> TR
    ICE --> FL
    M --> SP
    M --> TR
    M --> FL
    SPOT --> SP
    COMP --> ICE
    CACHE --> TR
    SP --> Consumers
    TR --> Consumers
    FL --> Consumers

Diagramma da creare: una versione visivamente più rifinita del diagramma Mermaid qui sopra, con lo storage layer in basso, i compute engine al centro, l’orchestration a sinistra che alimenta il compute, i layer di ottimizzazione dei costi come bande orizzontali che attraversano compute e storage, e i consumer a destra. Il punto del diagramma è mostrare che la piattaforma è a strati: lo storage è il pavimento, il compute è il mezzo, l’orchestration guida il compute, i cost layer tagliano orizzontalmente, i consumer stanno in cima.

Iceberg-su-S3 è il pavimento che tutto legge e scrive. Spark, Trino, e Flink sono gli engine. Maestro li schedula. I cost layer tagliano orizzontalmente. I consumer (BI, ML, business reporting) vivono in cima.

Cosa insegna il viaggio

Cinque lezioni, all’incirca nell’ordine in cui Netflix le ha incontrate.

Costruisci il tuo orchestratore solo quando quelli standard genuinamente non si adattano. Maestro esiste perché Airflow e Prefect, alla scala e alla cultura di Netflix, non erano la scelta giusta. Quel calcolo è reale, ed è sbagliato per quasi ogni altro team. La soglia per “costruire il tuo platform tool” è più alta di quanto la maggior parte dei team di engineering stimi, e il costo dello sbagliarla (anni di platform debt, difficoltà di hiring, un tool che nessuno fuori dall’azienda conosce) è grande. Scegli l’orchestratore già pronto, configuralo bene, e metti lo sforzo ingegneristico nei dati.

Le scelte di formato contano su scala, in modi invisibili a piccola scala. Hive ha funzionato per Netflix per anni. Il dolore che ha guidato Iceberg era operativo e visibile solo a scala petabyte. Se gestisci un warehouse da cento tabelle su Snowflake o BigQuery, la domanda sul formato è già risposta per te. Se gestisci un lakehouse aperto con migliaia di tabelle, la domanda sul formato è la scelta architetturale più importante della piattaforma, e Iceberg (o Delta o Hudi) è come si presenta la risposta nel 2026. La lezione 37 ha coperto il panorama.

L’ottimizzazione dei costi è una disciplina propria. A scala petabyte, anche piccole percentuali di spreco sono milioni di dollari all’anno. Servono ingegneri dedicati, tooling dedicato (cost dashboard per workload, per tabella, per team), e una cultura che tratti l’efficienza come un valore di prima classe nell’engineering invece che come una cosa che insegue il finance team. Il Modulo 9 copre i pattern in dettaglio. La storia di Netflix è la prova che le tecniche (spot, autoscaling, caching, compaction) sono applicabili a scale molto più piccole di quella di Netflix.

I contributi open-source rafforzano la piattaforma. L’adozione di Iceberg da parte di Snowflake, Databricks, AWS, e Google è la cosa migliore capitata alla data platform di Netflix negli ultimi cinque anni. Più tool, più bug fix, più ingegneri che conoscono il formato quando Netflix li assume. Il principio si generalizza: rilasciare in open-source componenti di piattaforma è spesso il modo più economico per renderli durevoli.

La piattaforma è il prodotto. Per i data engineer in Netflix, la piattaforma è la cosa che costruiscono, deliberatamente, con la stessa cura che metteresti in un prodotto rivolto al cliente. I data engineer e gli scienziati sono i clienti, e il lavoro del platform team è rendere il loro lavoro veloce, corretto, economico, e piacevole. Questa cornice sopravvive al divario di scala. Anche un data team da cinque persone ha clienti interni; trattare la piattaforma come un prodotto cambia il lavoro.

Cosa significa per sistemi che non sono Netflix

Se gestisci un warehouse Snowflake o BigQuery con qualche terabyte e una manciata di modelli dbt, le lezioni rilevanti sono le meta-lezioni, non “usa Iceberg”.

Scegli un orchestratore già pronto e rivisita la scelta solo quando genuinamente non sta tenendo il passo. La maggior parte dei team non arriva mai a quel punto. Scegli un table format con cui puoi convivere per cinque anni; se il tuo warehouse lo gestisce, la scelta è fatta. Costruisci una cost dashboard presto: le abitudini che costruisci a un terabyte sono le abitudini di cui hai bisogno a un petabyte. Tratta la tua data platform come un prodotto con clienti interni, la più economica delle lezioni da adottare e quella con la leva più grande. Il divario di scala non cambia il principio; cambia solo la dimensione del team che lo applica.

Il Modulo 5 si chiude qui

Il Modulo 5 ha attraversato il moderno batch data stack: ETL contro ELT (lezione 33), Hadoop e MapReduce (lezione 34), Spark e gli engine che hanno sostituito MapReduce (lezione 35), la storia di data lake e warehouse (lezione 36), il lakehouse e gli open table format (lezione 37), batch job idempotenti (lezione 38), backfilling e replay (lezione 39), e ora il caso di studio Netflix che esercita tutte queste cose a scala petabyte.

I pattern si trasferiscono; la scala no. Un team che gestisce un warehouse da cento gigabyte e un team che gestisce un lakehouse da cento petabyte usano lo stesso vocabolario, gli stessi diagrammi, gli stessi playbook. La differenza sta nelle costanti, non nella forma.

Il Modulo 6 inizia sullo streaming. I dati non sono più a riposo. Il job non finisce più. I trade-off sono diversi, ma la fondazione del Modulo 5 è ciò che lo stream processing legge e scrive.

Citazioni e letture ulteriori

Netflix Tech Blog, “Maestro: Netflix’s Workflow Orchestrator”, 2024, https://netflixtechblog.com/maestro-netflixs-workflow-orchestrator-ee13a06f9c78 (consultato 2026-05-01). L’annuncio del rilascio in open-source e la panoramica architetturale di Maestro.
Netflix Tech Blog, post su Apache Iceberg e la data platform di Netflix, indicizzati su https://netflixtechblog.com/ sotto i tag “Iceberg” e “data platform” (consultato 2026-05-01). La serie copre l’origine di Iceberg, la migrazione da Hive, e i componenti di piattaforma costruiti sopra.
Documentazione di Apache Iceberg, https://iceberg.apache.org/ (consultata 2026-05-01). Il riferimento canonico per il formato, il modello dei metadati, e la guida operativa su compaction e snapshot expiration.
Ryan Blue, “Iceberg: a fast table format for S3”, Strata Data Conference, 2018. Il talk che ha introdotto Iceberg alla comunità più ampia, con i failure mode di Hive alla scala di Netflix descritti in dettaglio.
“Designing Data-Intensive Applications” (Martin Kleppmann, O’Reilly, 2017), capitoli 10 e 11. Il riferimento standard per batch e stream processing, contro cui l’architettura Netflix è un’istanza concreta.