„Big Data“ vs. duomenų saugyklos. Koks skirtumas?

Technologijos progresuoja tokiu tempu, kurio neįmanoma suspėti, ir senėjančių technologijų vadovai netrukus pastebės, kad visos tos bakalauro technologijos klasės greitai pasensta. Jei esate didelėje įmonėje vyriausiasis technologijų direktorius (CTO), neturite daug laiko išmokti naujų technologijų, nes esate per daug užsiėmę gaisrų gesinimu ir įsitikinę, kad gerai atrodote kitame valdybos posėdyje priekyje visų kitų žmonių, kurie bando daryti tą patį. Tam tikru metu galite paklausti: kuo skiriasi didieji ir duomenų saugyklos?

Bet kuris technologijos profesionalas turi būti susipažinęs su duomenų baze. Tai tiesiog duomenų rinkinys, kuris bėgant laikui auga ir iš kurio jūs sužinosite įdomių dalykų iš užklausų. Tada yra duomenų saugyklos sąvoka, kurią ir nurodo pavadinimas. Neįsivelkime į visą „Kimball vs. Inmon“ pokalbį ir išlaikykime šį paprastumą.

Duomenų saugykla yra daugybė skirtingų duomenų bazių organizacijoje, kurias galima sujungti bendru raktu. Pvz., Įrašus galime sujungti keliose duomenų bazėse naudodami unikalų lauką, vadinamą CUSTOMER_ID. Čia yra įvairių departamentų duomenų bazės, kuriose yra įrašų, kuriuos galbūt norėsime susieti naudodami CUSTOMER_ID:

Naudodamiesi CUSTOMER_ID, galėsite lengvai išspausdinti viename puslapyje visų neapmokėtų sąskaitų sąrašą ir 10 naujausių paslaugų užklausų, kurias pardavėjas gali pasiimti su savimi į pardavimo susitikimą, sąrašą. Žinoma, šiandien mes visa tai naudojame tik „Salesforce“, tačiau šis paprastas pavyzdys pateikia idėją, kaip naudinga gali būti sujungiant skirtingus duomenų šaltinius. Štai kas yra duomenų saugyklos, išskyrus atvejus, kai jie žengia žingsnį toliau ir naudoja prijungtus duomenis labai aukšto lygio sprendimams priimti. Kurdami duomenų saugyklą, paprastai žinote, į kokius klausimus galėtumėte atsakyti, nes kai kurie C lygio asmenys prašo išmatuoti tam tikrus pagrindinius veiklos rodiklius (KPI). Duomenų sandėlius kuriate ne tik norėdami juos sukurti, nes tai brangi užduotis. Dabar pakalbėkime apie „didelius duomenis“ ir duomenų sandėlius.

Pirmas dalykas, kurį turime apibrėžti, yra terminas „dideli duomenys“, kuris pats save apibūdina. Tikriausiai esate girdėję dažnai cituojamą statistiką, kad 98% visų duomenų buvo sukurti per pastaruosius 2 metus. Tai dideli duomenys. Visus dabar generuojamus milžiniškus duomenų išmetimo rinkinius galima iškasti (atsimenate duomenų gavybą?), Kad gautumėte įžvalgų. Šiandieniniame aukštųjų technologijų pasaulyje galbūt norėsime susidaryti įžvalgas, kurių nežinome. Donaldas Rumsfeldas sumaniai tai pavadino „nežinomaisiais nežinomaisiais“ dalykais, kurių mes nežinome, apie kuriuos nežinome. Psichologijos pasaulyje ši sąvoka minima kaip Johari langas. Jūs žinote tą pardavimų žmogų, kuris nežino apie tai, kad vien dėl jų egzistavimo visi aplinkiniai nori nustumti Peterį Paną nuo artimiausio aukšto? Tai, kad asmuo nežino, kaip jie erzina, ir tai, kad aplinkiniai žmonės negali tiksliai parodyti savo piršto, kodėl, yra „nežinomas nežinomas“, nes niekas nežino, kodėl apiplėšimas pardavime yra tik didelis , riebus, nemalonus dūris. Šiaip ar taip, judam toliau.

Paskelbta 7wData.be.