25 de termeni de baza pentru Big Data pe care ar trebui sa-i cunoasteti

Categories ArticolePosted on

Arta de a manipula cantitati mari de date are un nume. Big Data este binecunoscuta tuturor (desi poate fi numita si date masive sau inteligenta de date) si defineste acea masivitate a informatiilor care circula prin Internet.

Dar lucrul important despre Big Data nu este doar faptul ca exista, ci si ce se face cu toate aceste date si cum sunt tratate. Este foarte important sa stim ce fac organizatiile cu atatea informatii, fara indoiala ca este un instrument de analiza foarte important cu care sa imbunatatesti procesul decizional. Expertii spun ca dimensiunea Big Data care trebuie definita ca atare ar trebui sa fie seturi de date cuprinse intre 30 sau 50 Terabytes pana la cativa Petabytes.

Pentru a intelege aceasta stiinta a teraoctetilor si petaoctetilor, trebuie sa cunoasteti termenii ei mai tehnici. In aceasta postare am adunat peste 25 de concepte Big Data necesare pentru a intelege cum sa lucrezi in lumea datelor.

Ce este big data?

Big Data este un termen in curs de dezvoltare care descrie un volum mare de date structurate, semi-structurate si nestructurate care au potentialul de a fi extrase pentru informatii si utilizate in proiecte de invatare automata si alte aplicatii avansate de analiza.Big Data este adesea caracterizata de cele 3 V-uri: volumul extrem de date, varietatea mare de tipuri de date si viteza cu care datele trebuie procesate. Aceste caracteristici au fost identificate pentru prima data de analistul Gartner Doug Laney intr-un raport publicat in 2001. Mai recent, alte V au fost adaugate la descrierile datelor mari, inclusiv veridicitatea, valoarea si variabilitatea. Desi Big Data nu echivaleaza cu un anumit volum de date, termenul este adesea folosit pentru a descrie terabytes, petabytes si chiar exabytes de date capturate de-a lungul timpului. Astfel de date voluminoase pot proveni din nenumarate surse diferite, cum ar fi sistemele de tranzactii comerciale, bazele de date ale clientilor, dosarele medicale, jurnalele de click pe Internet.

Dictionar Big Data

Acum ca sunteti putin mai aproape de a face un alt pas in definitia Big Data , trebuie sa intelegeti cativa termeni necesari cu care lucreaza oamenii de stiinta in date, o profesie care este din ce in ce mai solicitata.

Algoritm: este definit ca instructiunile ordonate sau regulile care servesc la exprimarea a ceea ce se cauta. In Big Data, pentru a fi mai precis, ajuta la cautarea modelelor si a relatiilor dintre variabile printre atat de multe date. Algoritmii sunt piloni de baza si necesari ai activitatilor digitale si tehnologice de astazi. In afaceri este un element care ajuta la intelegerea comportamentului clientilor.

Data Analyst: este persoana dedicata profesional analizarii, cu tehnici statistice, a datelor firmei pentru care lucreaza. Acest profil specializat in Big Data gestioneaza toate datele si isi cunoaste bine intreaga structura pentru a lua cele mai bune decizii si a defini cele mai bune strategii. Trebuie sa fie un profil cu cunostinte extinse in matematica, comunicare si statistica si sa domine sistemele masive de analiza a datelor, cum ar fi Machine Learning. Lucrand cu date istorice de la organizatie, cunostintele sale ii permit sa detecteze greselile din trecut, astfel incat acestea sa nu se repete in viitor.

Analiza afacerii:  este modul in care o afacere isi foloseste tehnicile pentru a obtine informatii prin intermediul datelor sale. Se face de obicei prin analiza statistica.

Analiza predictiva Analiza predictiva este ceea ce face profilul anterior (analistul de date) cu datele istorice ale companiei. Dupa cum indica numele, este o stiinta care este folosita pentru a prezice ceea ce se poate intampla in afacere pe baza datelor istorice care utilizeaza tehnici precum modelarea predictiva bazata pe algoritmi statistici si invatarea automata. Acest lucru ajuta la imbunatatirea planificarii si a rezultatelor.

Analytics: este modalitatea de a capta, procesa si analiza informatiile astfel incat acestea sa devina perspective.

Blaze: Acest termen este important in programare. Blaze este o interfata pentru interogarea datelor in diferite sisteme de stocare . Este cunoscuta si ca o biblioteca Python (limbaj de programare) care ajuta la stocarea, descrierea, interogarea si procesarea datelor. Poate fi folosit pentru a accesa date dintr-un numar mare de surse precum Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables etc.

Bokeh: Este o biblioteca Python folosita pentru aplicatii de performanta cu date de streaming si cu care poti crea grafica 3D interactiva si aplicatii web.

Random Forest: Este  o metoda de asamblare care utilizeaza diversi algoritmi de invatare. Dupa cum este definita de Adobe, aceasta metoda este folosita pentru a „obtine performanta predictiva mai mare decat ar putea fi obtinuta din orice algoritm de invatare constitutiv”. Acest algoritm de „Personalizare automata” este o metoda de clasificare sau regresie care functioneaza prin crearea unei multitudini de arbori de decizie in timpul invatarii.

Business Intelligence: este modul in care toate datele pe care le poate gestiona o afacere sunt lucrate, dar intr-un mod inteligent. Cu alte cuvinte, nu este vorba doar de gestionarea datelor, ci de lucrul din informatiile pe care datele le ofera si de a profita de acestea pentru a imbunatati strategiile de afaceri. Daca vrei sa te antrenezi in aceasta zona de business, nu rata  Cursul de Big Data si Business Intelligence.

Stiinta datelor: sunt metode stiintifice in care algoritmii, statisticile, procesele, sistemele, ingineria software sunt folosite pentru a obtine cunostinte, rezolva probleme analitice si pentru a avea o mai buna intelegere a informatiilor. Oamenii de stiinta de date extrag informatiile care vor fi folosite in afaceri pentru a imbunatati strategiile.

Clasa binara: este o abilitate matematica care permite rezolvarea modelelor de programare neliniara (procesul de rezolvare a sistemelor de egalitati si inegalitati supuse diverselor constrangeri).

C++: este un limbaj de programare care a fost conceput la sfarsitul anilor 1970 cu scopul de a extinde mecanismele de manipulare a obiectelor la limbajul de programare C. In Machine Learning aveti biblioteci utile precum LibSVM, Shark sau MLPack.

Deeplearning4j: este o biblioteca de programare de invatare creata pentru Java si Scala.

Data Lake: este lacul de date in care se scalda profesionistul in stiinta datelor pentru a obtine toate raspunsurile la intrebarile pe care le ofera Big Data. Este stocarea tuturor informatiilor brute colectate si care functioneaza cu o arhitectura plata.

Data Mining: data mining. Acest concept este folosit pentru a denumi tehnicile utilizate pentru explorarea bazelor de date.

Indicator de ridicare: asa cum este definit de unitatea de date telefonica „Luca”, in data mining si in invatarea automata, acest indicator de incredere „compara frecventa unui model observat cu frecventa cu care am putea vedea acelasi model intamplator”. „Daca valoarea „Lift” este aproape de 1, este foarte posibil ca modelul pe care l-am observat sa fie pura intamplare. Cu cat aceasta valoare este mai mare, cu atat este mai probabil ca modelul sa fie real.”

Lingvistica computationala: in informatica, lingvistica computationala studiaza limbajul vorbit pentru a-l converti in date structurate folosind instrumente de calcul.

NoSQL: sunt sisteme si structuri de gestionare a bazelor de date care permit stocarea informatiilor atunci cand bazele de date relationale dau probleme.

Perl: Este un limbaj de scripting care a fost conceput la sfarsitul anilor 1980. Preia caracteristici din limbajul C si din alte limbaje de programare. „Perl a fost folosit mult pentru procesarea textului si curatarea si curatarea datelor”, relateaza Luca.

Python: Este un limbaj de programare cu mai multe paradigme folosit in stiinta datelor. Python este folosit pentru a denumi biblioteci specializate in invatarea automata si generarea de grafice.

Sentiment Analytics: Analiza sentimentelor sau extragerea de opinii este procesul automat de intelegere a unei opinii pe un anumit subiect din limbajul scris sau vorbit.

Small Data:  sunt analizele de date care se efectueaza pe cantitati mai mici decat cele considerate ca Big Data.

SQL (Structured Query Language): Structured Query Language este un limbaj specific domeniului despre care Luca spune ca „se bazeaza pe utilizarea algebrei si a calculului relational pentru a efectua interogari in bazele de date intr-un mod simplu. Interogarile sunt efectuate folosind un limbaj de comanda care va permite sa selectati, sa inserati, sa actualizati, sa aflati locatia datelor si multe altele”.

UIMA (Unstructured Information Management Architecture): sunt sistemele software utilizate pentru a intelege informatiile nestructurate.

Weka: este o colectie de algoritmi de invatare automata pentru sarcinile de extragere a datelor. Contine instrumente pentru pregatirea datelor, clasificare, regresie, grupare, extragerea regulilor de asociere si vizualizare!