Ionut Hrubaru, Database Development Manager, OptymyzeArticol realizat de Ionut Hrubaru (foto), Database Development Manager in cadrul companiei Optymyze.

Sa presupunem ca sunteti o companie care incearca sa raspunda la urmatoarele intrebari:

- Care dintre oportunitatile viitoare au probabilitatea cea mai mare de a fi inchise cu succes?
- Care sunt cei mai importanti factori care duc la cresterea vanzarilor?
- In ce magazine ar trebui sa-mi desfasor noua campanie de marketing? Pe ce grupuri de clienti?
- Care e probabilitatea ca un anumit client sa-si reinnoiasca contractul?
- Care sunt clientii care in perioada urmatoare sunt cel mai probabili sa plece?

Pentru a raspunde la asemenea intrebari, de cele mai multe ori se analizeaza o serie de date istorice (care provin de obicei din interactiunea cu utilizatorii unor aplicatii software) si se face o proiectie sau pentru viitor. Astfel s-a nascut unul din cele mai cautate si bine platite joburi din IT in ultimii ani: Data Scientist.

El e cel care analizeaza istoricul si e capabil sa gaseasca un algoritm care sa prezica viitorul. Exista de multe ori confuzii in legatura cu responsabilitatile pe care le presupune rolul de Data Scientist, confuzii care vin de cele mai multe ori din doua directii.

Prima este cea a abilitatilor si pregatirii necesare si aici vorbim despre un amalgam greu de gasit intr-o singura persoana. Este nevoie de statistica si matematica (uneori la un nivel avansat), de programare (de cele mai multe ori, R, Python, sau chiar Java/Scala), de cunostinte de machine learning (Clustering, k-NN, Naive Bayes, SVM, Decision Forests), dar si de cunostinte avansate in contextul lucrului cu date: interogare, prelucrare si vizualizare (SQL + Analytics + instrumente de vizualizare de genul D3.js).

Cea de-a doua sursa de confuzii vizeaza un alt concept foarte la moda in present si anume Big Data. Conform Gartner, Big Data se refera la volum, viteza si varietate, toate in contextul datelor. In general termenul de Big Data se foloseste cu referire la un volum foarte mare de date (TB sau PB), a caror prelucrare si stocare presupune utilizarea unor sisteme care automatizeaza si permit realizarea in paralel a sarcinilor de lucru.

Sursele Big Data sunt de cele mai multe ori Internet-ul, senzorii, logurile, etc. Data Scientist-ul va fi cel care analizeaza acesti munti de date pentru a gasi corelatii, modele si algoritmi care pot fi folositi drept suport decizional. Asadar Big Data se refera la stocare si procesare, in timp ce Data Science (in traducere fortata stiinta datelor) va “intelege” datele respective.

Cand vine vorba despre salarii, graficul de mai jos ilustreaza cat de cautat e acest job in momentul de fata pe piata din SUA. Salariile variaza destul de mult in functie de expertiza, dar si datorita faptului ca unele companii au joburi de Data Science, dar de fapt cauta altceva (de exemplu nu putem numi Data Scientist o persoana care incarca date intr-o baza de date). Angajarea unui Data Scientist este insa o sarcina dificila tocmai datorita pregatirii si experientei necesare.

salariu data scientist

Sursa: Indeed.com

In Romania, inca nu putem vorbi despre astfel de joburi decat intr-o foarte mica masura. Exista extrem de putine companii care isi pot revendica meritul ca fac Data Science in adevaratul sens al cuvantului. De multe ori, profilul unui Data Scientist in Romania se refera la un developer Java/Scala sau de baze de date (SQL) care investeste timp in cresterea cunostintelor de statistica de exemplu. Cu toate acestea, piata locala castiga teren cu rapiditate. Companii precum Optymyze cauta cu prioritate candidati pentru astfel de job-uri complexe.

Nu este absolut totul roz in lumea unui Data Scientist. El sau ea va petrece mult timp (uneori pana la 90%) cu prelucrarea si curatarea datelor pentru a elimina anomaliile, erorile si inconsitentele. Recompensele sunt insa vaste si semnificative si nu se refera doar la aspectele financiare.

Data Scientist-ii joaca un rol major in conturarea tendintelor si deciziilor strategice in activitati vitale precum depistarea fraudelor, constructia sistemelor de predictive, sau intelegerea comportamentului utilizatorilor (in aproape orice business si pana la cel mai inalt nivel).

Sursa foto: Syda Productions_Shutterstock