Bahay Negosyo Malaking mga pangunahing kaalaman sa data: kung paano bumuo ng isang plano sa pamamahala ng data

Malaking mga pangunahing kaalaman sa data: kung paano bumuo ng isang plano sa pamamahala ng data

Video: Jaha Tum Rahoge | Maheruh | Amit Dolawat & Drisha More | Altamash Faridi | Kalyan Bhardhan (Nobyembre 2024)

Video: Jaha Tum Rahoge | Maheruh | Amit Dolawat & Drisha More | Altamash Faridi | Kalyan Bhardhan (Nobyembre 2024)
Anonim

Marami kaming naisulat tungkol sa papel ng data sa mga modernong negosyo. Mula sa mga startup at maliit hanggang sa midsize na mga negosyo (SMBs) hanggang sa mga malalaking negosyo, ang mga pananaw at pagsusuri ng data ay mas maa-access sa mga negosyo ng lahat ng mga laki kaysa dati. Ito ay, sa bahagi, salamat sa pagtaas ng self-service business intelligence (BI) at data visualization tool.

Bagaman, bago ka makagamit ng mga tool sa BI o magpatakbo ng mahuhusay na analytics sa isang set ng data, mayroong isang host ng mga kadahilanan na parisukat. Nagsisimula ito sa pag-unawa lamang kung ano ang Big Data, kung ano ito ay hindi (pahiwatig: hindi isang kristal na bola), at kung paano pamahalaan ang imbakan ng data, samahan, pahintulot, at seguridad sa loob ng iyong arkitektura ng data ng negosyo. Ito ay kung saan ang data ng pamamahala ay pumapasok. Ang mga proseso kung saan sinisiguro mo ang pamamahala sa loob ng isang kumpanya ay naiiba depende sa kung kanino ka nakikipag-usap. Ngunit, sa pangunahing, ang pamamahala ng data ay tungkol sa tiwala sa data at pananagutan, may asawa na may komprehensibong kasanayan sa seguridad ng pinakamahusay na data.

Kinausap ko ang Hortonworks at MapR, dalawa sa mga pinakamalaking negosyante na Hadoop sa merkado. Si Scott Gnau, Chief Technology Officer sa Hortonworks, at Jack Norris, Senior Vice President of Data at Application sa MapR, bawat isa ay nagpaliwanag kung ano ang kahulugan ng pamamahala ng data sa kanilang mga samahan. Napag-usapan nila kung paano harapin ang kumplikadong hamon sa pagtiyak ng pamamahala ng data sa loob ng kumplikadong mga arkitektura ng data at mga hierarchies ng organisasyon ng isang malaking negosyo.

Ano ang Eksakto Pamamahala ng Data at Bakit Kailangan Natin Ito?

Ang pamamahala ay nangangahulugang siguraduhin na ang data ng negosyo ay awtorisado, organisado, at pinahintulutan sa isang database na may kaunting mga error hangga't maaari, habang pinapanatili ang parehong pagkapribado at seguridad. Ito ay hindi isang madaling balanse na hampasin, lalo na kung ang katotohanan ng kung saan at kung paano ang data ay nakalagay at naproseso ay palaging nasa pagkilos ng bagay. Ipinaliwanag ng MapR's Norris kung bakit kailangang tingnan ang mga negosyo sa pamamahala ng data mula sa isang mas mataas na antas at tumuon sa mas malaking pipeline ng data sa paglalaro.

"Kapag sinimulan mo ang pag-scale ng iba't-ibang at bilis ng Big Data na pinag-uusapan namin, kailangan mong magkaroon ng pamamahala ng data ngunit nasa mas malawak na konteksto nito. Ano ang data na mayroon ka, kung sino ang may access dito, at kumusta ka pamamahala ng linya ng data na iyon sa paglipas ng panahon? " sabi ni Norris. "Mula sa isang pananaw ng pamamahala ng data, maaari kang magkaroon ng iba't ibang mga yugto ng data na umiiral sa loob ng isang sistema na maaaring ma-snapshot upang maaari kang bumalik sa anumang punto sa oras sa pipeline. Tungkol ito sa pagbuo ng pagkakasiguro at pag-access ng kontrol sa platform ng data upang makagawa sigurado na ang pagtuklas ng data at analytics ay malinaw, kung ikaw ay isang tagapamahala ng negosyo na tumitingin sa mga hanay ng data sa pananalapi o isang scientist ng data na nagtatrabaho sa raw upstream data. "

Pinagmulan: Rimes. Mag-click sa imahe para sa buong view.

Ang Hortonworks 'Gnau ay naka-key sa isang katulad na punto. Kung nakikipag-ugnayan ka sa isang bodega ng data o arkitektura ng lawa ng data, ang pamamahala ng data ay tungkol sa pagbabalanse ng mga magkakalabang pwersa. Tungkol ito sa hindi pa nababago na pag-access ng data upang magmaneho ng pagbabago at makakuha ng mga pananaw, at butil ng mga pahintulot at privacy na sabay na protektahan ang pagtatapos ng data.

"Ihambing at ihambing ang lumang mundo ng tradisyunal na pamamahala sa puwang ng data; medyo madali ito, " sabi ni Gnau. "Ang mga datos na ginamit nang mahusay na tinukoy ng papel ng trabaho o aplikasyon. Sa bagong mundo, nakakakuha ka ng pinakamahalagang halaga kapag ang data ng mga siyentipiko ay may access sa mas maraming data hangga't maaari, at ang paghahanap ng maligayang daluyan ay napakahalaga.

"Nagmamaneho ito ng isang bagong bagong paradigma sa kung paano mo kailangang lapitan ang pamamahala, " idinagdag ni Gnau. "Sa bagong mundong ito, isinasaalang-alang ko ang mga paksang pamamahala at seguridad na kailangang sakupin nang magkasama. Maraming mga kumpanya ang nagpupumilit pa ring ilipat iyon upang paganahin ang kanilang mga siyentipiko ng data na maging epektibo sa paghahanap ng mga bagong gamit na kaso habang, sa parehong oras, pag-unawa kung paano mahawakan ang seguridad, privacy, pamamahala - lahat ng mga bagay na mahalaga mula sa isang pananaw sa ilalim ng linya at mula sa pananaw sa reputasyon ng kumpanya. "

Paano ang isang plano ng pamamahala ng data ng negosyo ay dapat na sakupin at masiyahan ang lahat ng mga kalaban na ito? Sa pamamagitan ng pagtitiklop ng bawat kinakailangan nang paraan, isang hakbang sa bawat oras.

Paano Bumuo ng isang Plano ng Pamamahala ng Data

Ang Hortonworks, MapR, at Cloudera ay ang tatlong pinakamalaking independiyenteng mga manlalaro sa espasyo ng Hadoop. Ang mga kumpanya ay may sariling mga spheres ng impluwensya pagdating sa pamamahala ng data. Inilabas ng MapR ang isang bilang ng mga puting papeles tungkol sa paksa at nagtayo ng pamamahala ng data sa buong Converged Data Platform nito, habang ang Hortonworks ay may sariling data security at governance solution at co-itinatag ang Data Governance Initiative (DGI) noong 2015. Ito ay humantong sa bukas -Source ang Apache Atlas proyekto na nagbibigay ng isang bukas na data ng pamamahala ng data para sa Hadoop.

Ngunit pagdating sa kung paano ang bawat vendor crafts komprehensibong pamamahala ng data at mga diskarte sa seguridad, parehong nagsalita sina Gnau at Norris kasama ang magkatulad na linya. Ang mga sumusunod ay ang mga pinagsamang hakbang na inirerekumenda ng Hortonworks at MapR na mga negosyo na tandaan kapag nagtatayo ng isang plano sa pamamahala ng data.

Ang Malaki: Granular Data Access at Awtorisasyon

Ang parehong kumpanya ay sumasang-ayon na hindi ka maaaring magkaroon ng epektibong pamamahala ng data nang walang mga kontrol ng butil. Ginagawa ito ng MapR lalo na sa pamamagitan ng Mga Access Express Express (ACE). Tulad ng ipinaliwanag ni Norris, ang mga ACE ay gumagamit ng pagpapangkat at lohika ng Boolean upang kontrolin ang kakayahang umangkop at pag-access ng data, na may mga pahintulot na batay sa papel at mga setting ng kakayahang makita.

Sinabi niya na isipin ito tulad ng isang modelo ng Gartner. Sa Y-axis sa ibabang dulo ay mahigpit na pamamahala at mababang liksi, at sa X-axis sa tuktok na dulo ay mas mataas na liksi at hindi gaanong pamamahala.

"Sa mababang antas, pinoprotektahan mo ang sensitibong data sa pamamagitan ng pag-obfuscating nito. Sa itaas, nakakuha ka ng kumpidensyal na mga kontrata para sa mga siyentipiko ng data at mga analyst ng BI, " sabi ni Norris. "Kami ay may posibilidad na gawin ito sa mga masking kakayahan at iba't ibang mga tanawin kung saan mo ikinulong ang hilaw na data sa ilalim hangga't maaari at unti-unting magbigay ng higit na pag-access hanggang sa, sa itaas na dulo, binibigyan mo ng mas malawak na kakayahang makita ang mga administrador. Ngunit paano mo bibigyan pag-access sa tamang mga tao?

"Kung titingnan mo ang isang listahan ng control control ngayon, sasabihin nito tulad ng 'lahat ng tao sa engineering ay maaaring ma-access ito, '" dagdag ni Norris. "Ngunit kung nais mo ang ilang mga piling direktor sa isang proyekto sa loob ng IT upang magkaroon ng access o lahat maliban sa tao, kailangan mong lumikha ng isang espesyal na grupo. Ito ay isang labis na kumplikado at nagkakaisang paraan upang tumingin sa pag-access."

Iyon ay kung saan ang pagbibigay ng mga karapatan ng pag-access sa iba't ibang antas at pangkat ay pumapasok, ayon kay Norris. "Pinagsama namin ang mga ACE sa iba't ibang mga paraan na ma-access mo ang data-sa pamamagitan ng mga file, talahanayan, stream, atbp. At ipinatupad ang mga tanawin na walang hiwalay na mga kopya ng data. Kaya't nagbibigay kami ng Mga Pananaw sa parehong hilaw na data at ang Mga Pananaw maaaring magkaroon ng iba't ibang mga antas ng pag-access. Nagbibigay ito sa iyo ng mas maraming integrated security na mas tuwiran. "

Hortonworks humahawak ng butil na pag-access sa isang katulad na fashion. Sa pamamagitan ng pagsasama ng Apache Atlas para sa pamamahala at Apache Ranger, sinabi ni Gnau na hinahawakan ng kumpanya ang pahintulot sa isang antas ng negosyo sa pamamagitan ng isang solong pane ng baso. Ang susi, aniya, ay ang kakayahang konteksto na magbigay ng pag-access sa database at sa mga tiyak na metadata tag sa pamamagitan ng paggamit ng mga patakaran na batay sa tag.

"Kapag ang isang tao ay nasa database, ito ay tungkol sa paggabay sa kanila sa pamamagitan ng data na dapat silang magkaroon ng may-katuturang pag-access sa, " sabi ni Gnau. "Ang mga patakaran sa seguridad ng Ranger sa antas ng object, maayos na grained, at saanman sa pagitan ay maaaring hawakan iyon. Ang pagtali sa seguridad sa pamamahala ay kung saan ang mga bagay ay nakakakuha ng talagang kawili-wili.

"Upang masukat ang mga malalaking organisasyon, kailangan mong pagsamahin ang mga tungkulin na may pamamahala at metadata tagging, " idinagdag Gnau. "Kung nag-log in ako mula sa Singapore, marahil ay may iba't ibang mga patakaran batay sa mga lokal na batas sa privacy o diskarte sa korporasyon. Kapag ang isang kumpanya ay tumutukoy, nagtatakda, at nauunawaan ang mga panuntunan mula sa isang holistic na top-down na pananaw, maaari mong seksyon na mai-access batay sa tiyak na mga hanay ng panuntunan habang ang pagpapatupad ng lahat sa loob ng pangunahing platform. "

Pinagmulan: IBM Big Data & Analytics Hub. Mag-click sa imahe para sa buong view.

2. Perimeter Security, Data Protection, at Pinagsamang Authentication

Ang pamamahala ay hindi nangyayari nang walang seguridad sa pagturo. Sinabi ni Gnau na mahalaga na bumuo ng isang mahusay na perimeter at firewall sa paligid ng data na nagsasama sa umiiral na mga system at pamantayan sa pagpapatotoo. Napagkasunduan ni Norris na, pagdating sa pagpapatunay, mahalaga para sa mga negosyo na mag-sync sa mga nasubok na mga pagsubok na sistema.

"Sa ilalim ng pagpapatunay, tungkol ito sa kung paano ka nakasama sa LDAP, Aktibong Directory, at mga serbisyo ng direktoryo ng third-party, " sabi ni Norris. "Sinusuportahan din namin ang username at mga password ng Kerberos. Ang mahalagang bagay ay hindi lumikha ng isang buong hiwalay na imprastraktura, ngunit ito ay kung paano ka nakasama sa umiiral na mga istraktura at leverage system tulad ng Kerberos."

3. Data Encryption at Tokenization

Ang susunod na hakbang pagkatapos ma-secure ang iyong perimeter at pagpapatunay ng lahat ng mga butil na pag-access ng data na iyong ipinagkaloob: Siguraduhin na ang mga file at personal na makikilalang impormasyon (PII) ay naka-encrypt at natukoy mula sa dulo hanggang sa pamamagitan ng iyong data ng pipeline. Tinalakay ni Gnau kung paano siniguro ng Hortonworks ang data ng PII.

"Kapag nakakuha ka ng perimeter at may access sa system, ang kakayahang protektahan ang data ng PII ay napakahalaga, " sabi ni Gnau. "Kailangan mong i-encrypt at tukuyin ang data na iyon, anuman ang may access dito, maaari nilang patakbuhin ang analytics na kailangan nila nang hindi ilantad ang alinman sa data na PII kasama ang linya."

Tulad ng para sa kung paano ka ligtas na ma-access ang naka-encrypt na data pareho sa paggalaw at sa pamamahinga, ipinaliwanag ng MapR's Norris na mahalaga na tandaan ang mga kaso ng paggamit tulad ng pag-backup at pagbawi sa sakuna (DR). Tinalakay niya ang isang konsepto ng tinatawag na lohikal na volume, na maaaring mag-apply ng mga patakaran sa pamamahala sa isang lumalagong kumpol ng mga file at direktoryo.

"Sa pinakamababang antas, nai-arkitektura ng MapR ang pagtitiklop ng WAN para sa DR, at mga snap na naka-pare-pareho ng oras sa lahat ng data na maaaring mai-set up sa iba't ibang mga frequency sa pamamagitan ng direktoryo o dami, " sabi ni Norris. "Ito ay mas malawak kaysa sa pamamahala lamang ng data. Maaari kang magkaroon ng isang pisikal na kumpol na may mga direktoryo, at pagkatapos ang lohikal na konsepto ng dami ay isang talagang kawili-wiling yunit ng pamamahala at paraan sa pangkat ng mga bagay habang kumokontrol para sa proteksyon at dalas ng data. Ito ay isa pang arrow sa data ng admin ng IT. pamamahala ng quiver. "

4. Patuloy na Pag-audit at Analytics

Sa pagtingin sa mas malawak na larawan ng pamamahala, parehong ang Hortonworks at MapR ay nagsabi na ang istratehiya ay hindi gagana nang walang pag-awdit. Ang antas ng kawalaan ng pananagutan at pananagutan sa bawat hakbang ng proseso ay kung ano ang nagpapahintulot sa IT na aktwal na "mamamahala" ng data kumpara sa simpleng pagtatakda ng mga patakaran at pag-access ng mga kontrol at pag-asa para sa pinakamahusay. Ito rin kung paano mapapanatili ng mga negosyo ang kanilang mga diskarte sa kasalukuyan sa isang kapaligiran kung saan nakikita natin ang data at mga teknolohiyang ginagamit namin upang pamahalaan at suriin ito ay nagbabago araw-araw.

"Ang pangwakas na piraso ng isang modernong diskarte sa pamamahala ay ang pag-log at pagsubaybay, " sabi ni Gnau. "Nasa pagkabata kami ng Big Data at IoT, at kritikal na maaaring subaybayan ang pag-access at makilala ang mga pattern sa data upang, dahil ang diskarte ay kailangang ma-update, nauna kami sa curve."

Sinabi ni Norris na ang pag-audit at pagsusuri ay maaaring maging kasing simple ng pagsubaybay sa mga file ng JavaScript Object Notation (JSON). Hindi lahat ng piraso ng data ay nagkakahalaga ng pagsubaybay at pagsusuri ngunit ang iyong negosyo ay hindi malalaman kung aling-hanggang sa makilala mo ang isang pananaw na nagbabago ng laro o isang krisis ang mangyayari at kailangan mong magpatakbo ng isang audit trail.

"Ang bawat file ng log ng JSON ay binuksan para sa pagsusuri at mayroon kaming Apache Drill upang mag-query sa mga file ng JSON na may mga iskema, kaya hindi ito isang manu-manong hakbang sa IT upang mai-set up ang pagsusuri ng metadata, " sabi ni Norris. "Kapag isinama mo ang lahat ng mga kaganapan sa pag-access sa data at bawat pagkilos ng administratibo, mayroong isang malawak na hanay ng mga analytics na posible."

5. Isang Pinag-isang Data Architecture

Sa huli, ang opisyal ng teknolohiya o admin ng IT na nangangasiwa ng isang diskarte sa pamamahala ng data ng negosyo ay dapat isipin ang tungkol sa mga detalye ng butil na pag-access, pagpapatunay, seguridad, pag-encrypt, at pag-awdit. Ngunit ang opisyal ng teknolohiya o admin ng IT ay hindi dapat tumigil doon; sa halip, dapat ding isipin ng taong iyon kung paano ang bawat isa sa mga sangkap na ito ay nagpapakain sa kanilang mas malaking arkitektura ng data. Dapat din niyang isipin ang tungkol sa kung paano kailangang ma-scalable at ligtas ang imprastraktura - mula sa pangangalap ng data at pag-iimbak sa lahat ng mga paraan sa mga serbisyo ng BI, analytics, at third-party. Sinabi ni Gnau na ang pamamahala ng data ay tungkol sa diskarte sa pag-iisipang muli at pagpapatupad dahil ito mismo ay tungkol sa tech mismo.

" Lumampas ito sa isang solong pane ng baso o isang koleksyon ng mga panuntunan sa seguridad, " sabi ni Gnau. "Ito ay isang solong arkitektura kung saan nilikha mo ang mga papel na ito at nag-sync sila sa buong platform at lahat ng mga tool na dalhin mo dito. Ang kagandahan ng ligtas na pamamahala ng imprastraktura ay ang liksi kung saan nilikha ang mga bagong pamamaraan. Sa bawat antas ng platform, o kahit na sa isang mestiso na kapaligiran sa ulap, mayroon kang isang punto ng sanggunian upang maunawaan kung paano mo ipinatupad ang iyong mga patakaran. Lahat ng data ay dumadaan sa patong na ito ng seguridad at pamamahala. "

Malaking mga pangunahing kaalaman sa data: kung paano bumuo ng isang plano sa pamamahala ng data