Când lumea mă întreabă cu ce mă ocup, “data engineer” primește de obicei o aprobare politicoasă din cap și o schimbare rapidă de subiect. Hai să încerc un răspuns mai bun.
Analogia cu instalațiile sanitare
Imaginează-ți un oraș. Undeva e un rezervor plin cu apă, în altă parte e un robinet în bucătăria cuiva, iar între ele sunt kilometri de țevi, valve, pompe și manometre care țin apa curată, potabilă și care ajunge la timp.
Un data engineer construiește același lucru, dar pentru date în loc de apă. Rezervorul poate fi un procesor de carduri, un clickstream de pe un site, un sistem ERP, sau un CSV pe care cineva din Finance îl tot trimite pe mail. Robinetul din bucătărie e un dashboard, un model de machine learning, sau un raport pe biroul cuiva. Munca mea e tot ce e între ele.
Acel “tot ce e între ele” e de obicei ceea ce lumea nu vede, și e majoritatea muncii.
O săptămână normală
Într-o săptămână tipică fac un amestec de:
- Mutat date: să le iau de unde stau (o bază de date, un API, un drop de fișiere) și să le aterizez undeva unde le putem interoga.
- Curățat datele: date care vin ca string-uri, valute în trei formate diferite, clientul scris în patru feluri diferite. Aici e de fapt cea mai mare valoare pe care o adaug.
- Modelat: să transform evenimente brute în tabelele cu care analiștii și data scientists chiar vor să lucreze. Aici SQL încetează să fie un limbaj de interogare și devine un instrument de design.
- Supravegheat: să scriu alertele care trezesc pe cineva la 3 dimineața când o pipeline se rupe, și apoi să mă străduiesc foarte mult ca acel cineva să nu fiu eu.
- Vorbit cu oameni: să înțeleg ce vrea de fapt business-ul, ceea ce aproape niciodată nu e ce cerea primul mail.
De ce îmi place
Îmi place data engineering pentru că bucla de feedback e onestă. Ori numerele se potrivesc la capătul pipeline-ului, ori nu. Ori dashboard-ul se încarcă în două secunde, ori nu. E mult loc pentru meserie acolo înăuntru, dar adevărul apare repede.
E și o slujbă în care curiozitatea plătește mai mult decât deșteptăciunea. Cei mai buni data engineers cu care am lucrat nu sunt cei care cunosc cele mai exotice unelte — sunt cei care, când ceva pare ciudat, nu se pot opri din săpat până nu înțeleg de ce.
Asta e partea pe care încerc să o scriu pe acest site. Nu “10 trucuri SQL pe care nu le știai” — mai degrabă momentele mici în care am învățat ceva și am vrut să mi-l amintesc.