Quando la gente mi chiede cosa faccio per vivere, “data engineer” di solito guadagna un cenno di cortesia e un rapido cambio di argomento. Ci provo con una risposta migliore.
L’analogia con l’idraulica
Immagina una città. Da qualche parte c’è un bacino pieno d’acqua, da qualche altra parte c’è un rubinetto in una cucina, e in mezzo ci sono chilometri di tubi, valvole, pompe e manometri che mantengono l’acqua pulita, potabile, e che arriva al momento giusto.
Un data engineer costruisce la stessa cosa, ma per i dati invece dell’acqua. Il bacino può essere un processore di carte di credito, il flusso di click di un sito web, un sistema ERP, o un CSV che qualcuno in Finance continua a girare via mail. Il rubinetto in cucina è una dashboard, un modello di machine learning, o un report sulla scrivania di qualcuno. Il mio lavoro è tutto quello che c’è in mezzo.
Quel “tutto quello che c’è in mezzo” è di solito quello che la gente non vede, ed è la maggior parte del lavoro.
Una settimana normale
In una settimana tipo faccio un po’ di tutto questo:
- Spostare dati: tirarli fuori da dove vivono (un database, un’API, un drop di file) e farli atterrare da qualche parte dove li possiamo interrogare.
- Pulirli: date che arrivano come stringhe, valute in tre formati diversi, il cliente che è scritto in quattro modi diversi. Il valore che aggiungo è quasi tutto qui.
- Modellarli: trasformare eventi grezzi nelle tabelle che gli analisti e i data scientist vogliono davvero usare. È qui che SQL smette di essere un linguaggio di interrogazione e inizia a essere uno strumento di design.
- Sorvegliarli: scrivere gli alert che svegliano qualcuno alle 3 di notte quando una pipeline si rompe, e poi cercare con tutte le forze di fare in modo che quel qualcuno non sia io.
- Parlare con esseri umani: capire cosa vuole davvero il business, che non è quasi mai quello che chiedeva la prima mail.
Perché mi piace
Mi piace il data engineering perché il ciclo di feedback è onesto. O i numeri tornano alla fine della pipeline o non tornano. O la dashboard si carica in due secondi o non si carica. C’è un sacco di spazio per il mestiere lì dentro, ma la verità si presenta in fretta.
È anche un lavoro in cui essere curiosi paga più che essere intelligenti. I migliori data engineer con cui ho lavorato non sono quelli che conoscono gli strumenti più esotici — sono quelli che, quando qualcosa sembra strano, non riescono a fermarsi finché non hanno capito perché.
Questa è la parte che voglio scrivere su questo sito. Non “10 trucchi SQL che non conoscevi” — più i piccoli momenti in cui ho imparato qualcosa e ho voluto ricordarmela.