Video: What is a Data Lake? (Nobyembre 2024)
Ang rebolusyon ng Big Data ay nagbigay-kahulugan sa paraan ng paggawa ng negosyo; underpins ang data. Hindi lamang magkaroon ng mga bukas na mapagkukunan tulad ng Apache Hadoop at Spark na gumawa ng malawak na dami ng data na mas madali upang mangolekta, magproseso, at mag-imbak sa real time, ngunit ang intelektwal na negosyo (BI) at mga tool ng visualization ng data ay nagsimula upang matulungan kaming masimulan ang ibabaw ng pagsusuri at pagbabago ng data na iyon upang ipaalam ang mga desisyon sa pangunahing negosyo.
Bagaman, sa kabila ng kung gaano kalaki ang teknolohiya ng Big Data at BI, nakikipag-ugnayan pa rin kami sa gayong napakalaking dami ng patuloy na pagsasama-sama ng data na ang paghahanap ng tamang mga puntos upang pag-aralan ay nararamdaman pa rin tulad ng diving para sa mga karayom sa isang walang katapusang haystack. Ang solusyon? Muling idisenyo muli ang haystack.
Ipasok ang mga lawa ng data, isang bagong uri ng arkitektura ng cloud-based na enterprise na bumubuo ng data sa isang mas scalable na paraan na ginagawang mas madaling mag-eksperimento sa; ginagawang mas bukas ito sa paggalugad at pagmamanipula sa halip na naka-lock sa mahigpit na mga scheme at silos. Si Nasry Angel, isang Enterprise Architecture Researcher sa Forrester Research, ay ipinaliwanag kung bakit ang mga negosyo ay yumakap sa mga arkitektura ng lawa ng data.
"Ito ay tunog ng cliché, ngunit kapag iniisip mo ang tungkol sa isang epektibong modernong kapaligiran ng data, mas maraming eksperimentong ito, " sabi ni Angel. "Kailangan mong matuto nang mabilis at mabigo nang mabilis. Sa nakaraan, ang pamamahala ng data, lalo na sa isang bodega, ay tungkol sa kalidad, hanggang sa puntong panghihinuha; tinitiyak na ang lahat ay ganap na tumpak at totoo. Tinatawag itong habol ng isang solong. bersyon ng katotohanan.Pagkatapos ng pagbuo ng isang ulat na perpekto ng pixel at sumabog ito sa 5, 000 mga gumagamit.
"Ngayon, ito ay isang mas pang-agham na proseso. Naglalakad ka na may isang hypothesis tungkol sa data na nais mong subukan at nais mong makapaglaro sa data, maghalo at tumutugma, upang subukan ang iba't ibang mga bagay bago ka pumunta at gumawa ng isang bagay. "
Ano ang Sa isang Data Lake?
Ang isang data lake ay isang imbakan ng imbakan. Bagaman, hindi tulad ng isang bodega ng data o "data mart, " ipinaliwanag ni Angel na ang mga lawa ng data ay ipinamamahagi sa maraming mga node sa halip na sa maayos, nakabalangkas na kapaligiran ng isang bodega ng data na umaasa sa mga scheme (tingnan ang infographic sa ibaba).
"Pinapayagan ka ng isang data lake na mag-aplay ng isang panukala kapag isinulat mo ang data kumpara sa isang bodega ng data na nangangailangan sa iyo na gumawa ng isang panukala na basahin. Kaya, mahalagang, ang isang bodega ng data ay nangangailangan sa iyo upang mag-modelo ng data bago mo maunawaan ang konteksto nito, na hindi nauunawaan. hindi talaga akma, "sabi ni Angel.
Pinagmulan: JustOne Database, Inc. (Mag-click sa graphic sa itaas upang makita ang buong view.)
"Karaniwan, sa isang bodega, mayroon kang mga propesyonal sa IT na sumasalamin sa inaakala nilang pinakamahusay na mga modelo ng data, at hindi sila ang mga gumagamit ng data ng mabilis. Maaari mong mabilis na makita kung paano pinipigilan ang pagiging produktibo at halaga ng negosyo, " idinagdag niya . "Sa huli, ikaw at ang mga gumagamit ng negosyo ay kailangang maging mga nagpapasya tungkol sa istruktura ng data, at, sa isang lawa ng data, maaari mo munang galugarin at alamin kung ano ang nariyan at pagkatapos ay malaman ang isang panukala upang pinakamahusay na ayusin ito."
Ang mga lawa ng data ay karaniwang itinayo sa Hadoop, at ang mga pamamahagi ng Hadoop tulad ng Hortonworks at MapR ay nag-aalok ng mga arkitektura ng lawa ng data. Ang mga negosyo ay maaari ring magtayo ng mga lawa ng data sa pamamagitan ng paggamit ng Infrastructure-as-a-Service (IaaS) ulap kasama ang Amazon Web Services (AWS) at Microsoft Azure. Ang Elastic Compute Cloud (EC2) ng Amazon ay sumusuporta sa mga lawa ng data habang ang Microsoft ay may nakalaang platform ng Azure Data Lake upang mag-imbak at mag-aralan ang data ng real-time. Sinabi ni Angel na ang mga lawa ng data ay tumatagal hanggang sa punto sa loob ng Big Data space kung saan ang mga negosyo ay maaaring magsimulang mamuhunan sa mga ito nang may makatuwirang kumpiyansa.
"Ilang taon na ang lumipas, si Hadoop ang lahat ng galit. Ngayon ay papunta tayo sa isang punto kung saan na-commoditize si Hadoop, " sabi ni Angel. "Ang tanong ay hindi kung ang Hadoop ngunit kung kailan, at kung ano ang gagawin mo. Anong mga uri ng mga aplikasyon ang iyong itatayo sa tuktok ng Hadoop kapag nakuha mo ang data sa isang karaniwang lugar tulad ng isang data lake? Sa puntong ito, tungkol sa paggamit ng data upang makabuo ng mga aplikasyon upang matugunan ang iyong mga tiyak na pangangailangan sa negosyo. "
Pagbuo ng Atop ng isang Data Reservoir
Ang pinaka-kapana-panabik na bahagi tungkol sa Big Data ay ang lahat ng posibilidad na magbubukas ito. Kapag nag-set up ka ng isang lawa ng data kung saan upang i-play at mag-eksperimento sa iba't ibang mga kumbinasyon ng data at mga kinalabasan ng negosyo, maaari mong simulan ang paglalagay ng mga makabagong diskarte sa pagsusuri sa tuktok.
Ang mga algorithm ng pag-aaral ng machine (ML) ay naging bahagi ng tela ng imprastraktura ng ulap, at ang mga mananaliksik ay patuloy na nagpapabuti ng mga malalim na diskarte sa pag-aaral at mga network ng neural upang sanayin ang mga makina at mga sistema ng data upang makilala ang mga kumplikadong pattern. Ang mahuhulaan na analytics ay inihurnong sa higit pa at mas maraming mga tool ng data at mga platform ng negosyo rin, na ginagamit para sa lahat mula sa mahuhulaang pagmamarka at awtomatikong segment para sa pamamahala ng relasyon sa customer (CRM) upang makilala ang mga uso sa merkado ng pinansyal at preemptively na mahuli ang mga pagkabigo sa makina sa makinarya.
Ang lahat ng ito ay nangyayari sa tuktok ng anumang data store na iyong pagpapakain at pag-scale ayon sa mga pangangailangan ng iyong negosyo. Napag-usapan ni Angel ang ilan sa mga kaso ng paggamit sa totoong-mundo kung saan nakita niya ang mga lawa ng data na nagbabago ang paraan ng pag-andar ng mga organisasyon.
"Nagtatrabaho ako sa isang kumpanya ng paglalathala na mayroong portfolio ng iba't ibang mga magasin - mayroon silang isang publication para sa mga abogado, isa pa para sa mga accountant, isa pa para sa mga tagapayo, atbp. At ang bawat publication ay may sariling bodega ng data. silo, "paliwanag ni Angel.
"Kaya kinuha namin ang lahat ng data mula sa isang bodega at inilagay ito sa isang lawa ng data, at pinayagan sila ng data lake na makita ang mga silos. Nagawa nilang tuklasin ang data at gumawa ng pagtuklas ng data, at natanto na sa lahat ng iba't ibang mga pahayagan, ang mga customer mula sa bawat magazine ay interesado sa cybersecurity. Ang pagbabasa para sa cybersecurity ay malakas sa lahat ng iba't ibang mga tungkulin na ito. Kaya ano ang ginawa nila? Ginawa nila ang cybersecurity ang tema ng kanilang taunang pagpupulong. "
Ang isa pang halimbawa na pinag-usapan ni Angel ay ang e-commerce. Ang isa pang kliyente, isang online na tagatingi ng sining, ay nagtatapon ng isang toneladang impormasyon sa isang lawa ng data at ginagamit ito hindi lamang bilang isang imbakan ngunit bilang isang canvas ng mga uri upang magkasama ang mga pananaw sa negosyo. Dinala ng nagtitingi ang data ng transaksyon (mga order, invoice, pagbabayad, atbp.), Data ng clickstream (tagumpay ng bawat pag-click ng mga bisita ng website ng mga pag-click at mga pahina), at data mula sa bodega ng data ng tingi sa buong lawa, at ginamit ito sa konsiyerto upang labanan ang shopping cart pag-abanduna at pagbabagong loob.
"Nais mong bumuo sa tuktok ng isang data lake at gamitin ito upang mabuo ang mga kumplikadong pananaw sa negosyo, " sabi ni Angel. "Ang art retailer ay tumingin sa data ng clickstream ng isang customer at mga pag-click sa tugma sa mga profile ng customer, pagkatapos ay gumamit ng mga transactional data upang makita kung ano ang binili ng customer sa nakaraan at gamitin ang mga pananaw na iyon upang magpatakbo ng napaka-tiyak na mga kampanya ng email. Kaya, kung ang isang customer ay tumalikod. ang kanilang cart, maaaring sumunod ang tingi ng dalawang oras mamaya at sabihing, 'Nakita namin na sinuri mo ang Picasso na ito; narito ang link kung nais mong tingnan ito muli.' "
Ang mga lawa ng data ay naaangkop sa buong mundo sa lahat ng uri ng mga kaso ng paggamit ng negosyo. Ngunit, para sa isang Chief Technical Officer (CTO) o Chief Information Security Officer (CISO) na isinasaalang-alang ang paglipat sa arkitektura, iginiit ni Angel na ang mga bodega ng data ay hindi pa lipas, hindi sa anumang kahabaan. Para sa karamihan ng mga samahan ng negosyo, gumagamit ka man ng cloud provider o isang pasadyang pamamahagi ng Hadoop, kailangan pa rin ng pareho ang mga negosyo.
Ang mga data lawa ay nagbibigay sa iyo ng pag-access sa mga walang katumbas na pananaw sa pamamagitan ng pag-alis ng mga limitasyon ng pagkakasunud-sunod ng data sa isang partikular na panukala, at dumating sa isang mas mababang kabuuang halaga ng pagmamay-ari na nabigyan ng paggamit ng murang, nababaluktot na imbakan ng ulap tulad ng AWS upang masukat at pababa - habang lamang nagbabayad para sa lakas ng pagproseso na talagang ginagamit mo. Ang pagpapatakbo ng isang bodega ng data ay mas mahal at, dahil dito, ginagawang mas pinipili ng mga propesyonal sa IT ang tungkol sa kung ano ang data at papasok. Ngunit para sa pinaka-kritikal na data ng isang kumpanya, hindi iyon masamang bagay.
"Ang bodega ng data ay may mga pakinabang sa mga tuntunin ng seguridad at pagiging isang napakadaling tool upang makontrol ang pamamahala ng data, " sabi ni Angel. "Kaya't nais mo pa ring mapanatili ang iyong pinaka-sensitibong impormasyon sa bodega, ang bagay na kritikal na misyon. Ngunit pagdating sa mga bagong pagkakataon sa negosyo at pagtuklas ng mga nakatagong pananaw, nais mong maging leveraging isang data lake."