Come sono diventato data engineer senza una laurea in informatica

Nessuno pianifica di diventare data engineer. O almeno io no. Non sapevo nemmeno che il lavoro esistesse quando ho iniziato l’università a Torino. Ecco come è andata, con le parti oneste lasciate dentro.

Gli anni dell’università

Ho studiato all’Università degli Studi di Torino. La mia laurea non era in informatica — sono finito in un campo abbastanza vicino da toccare database e statistica, ma non così tecnico da scrivere compilatori. La cosa importante, col senno di poi, non era il corso di laurea specifico ma il fatto che mi ha costretto a pensare in modo strutturato e analitico e mi ha dato una base nei dati.

La lezione più grande di quegli anni non aveva niente a che fare con gli esami: ho scoperto che mi piaceva far muovere i dati. Pulire un dataset disordinato e trasformarlo in qualcosa di utile mi dava la stessa soddisfazione che altre persone provano nel costruire un mobile. C’è una cosa che prima non c’era, e adesso funziona.

Le competenze che hanno contato davvero

Quando ho iniziato a lavorare, a nessuno importava dei miei voti. Importava di:

SQL. Non l’SQL da manuale — quello sporco, da produzione, dove fai join su sei tabelle con left join e gestione dei null e la query deve girare in meno di 5 secondi su 200 milioni di righe.
Python. Non per web app o machine learning (non ancora), ma per scrivere script ETL, validazione dei dati e collegare sistemi tra loro. Python è il nastro adesivo del data engineering.
Spark / PySpark. È qui che la mia carriera ha davvero accelerato. Una volta che sai scrivere job Spark che processano terabyte in modo affidabile, risolvi una classe di problemi che la maggior parte delle persone non sa affrontare, e le aziende se ne accorgono.
Piattaforme cloud. Databricks, Snowflake, Azure Data Factory — il modern data stack. Ho investito molto su Databricks e ha ripagato. Le certificazioni non sono magia, ma ti costringono a imparare la piattaforma come si deve invece di copiare risposte da Stack Overflow.
Comunicazione. Lo so, lo dicono tutti. Ma la realtà è che un data engineer passa metà del tempo a parlare con persone che non sanno (e non gliene importa) cos’è un DAG. Spiegare la tua pipeline a un product manager in due frasi è una competenza reale, ed è quella che ti fa fare carriera.

Le cose che avrei fatto diversamente

Iniziare a costruire progetti prima. Il mio primo anno di lavoro ho imparato on the job ma non ho costruito niente per conto mio. Ogni side project che poi ho costruito mi ha insegnato di più per ora investita di qualsiasi task lavorativo, perché i side project ti costringono a prendere tutte le decisioni da solo.

Imparare il testing prima. Pensavo che i test fossero overhead. Adesso penso che le data pipeline senza test siano bombe a orologeria. La prima volta che una pipeline produce silenziosamente dati sbagliati per due settimane prima che qualcuno se ne accorga, impari la lezione. Io l’ho imparata nel modo duro.

Scrivere di più. Questo sito esiste in parte perché adesso credo che spiegare qualcosa sia il modo migliore per capirla davvero. Se riesci a scrivere una spiegazione chiara di come funziona il partitioning in Spark, allora capisci davvero il partitioning. Se non ci riesci, lo capisci meno di quanto pensi.

Cosa direi a chi inizia oggi

Impara bene SQL. Non solo SELECT-FROM-WHERE. Window function, CTE, piani di esecuzione. SQL è la lingua franca dei dati — non sta andando da nessuna parte.
Scegli un linguaggio e vai in profondità. Python è la scelta sicura. Imparalo abbastanza bene da scrivere codice pulito e testabile — non solo script che funzionano una volta.
Fai amicizia con il cloud. Scegli una piattaforma (Databricks, Snowflake, BigQuery — non importa quale) e imparala da cima a fondo. Costruisci un progetto, fai il deploy, fallo girare su uno schedule.
Non saltare i fondamentali. Star schema, slowly changing dimension, data quality, pipeline idempotenti — i concetti non sono cambiati in 20 anni anche se gli strumenti cambiano ogni 2.
Costruisci in pubblico. Un repository GitHub con una pipeline funzionante vale più di una certificazione. Un post sul blog che spiega cosa hai costruito vale più di entrambi.

Il mercato del lavoro per data engineer in Europa è forte, specialmente in Italia dove le aziende stanno ancora recuperando terreno sul modern data stack. Il percorso non richiede una laurea in informatica — richiede curiosità, perseveranza e una certa tolleranza per il debugging alle 2 di notte di cose che alle 5 del pomeriggio funzionavano benissimo.

Quest’ultima parte non è in nessuna job description. Ma è il vero prerequisito.