Bahay Ipasa ang Pag-iisip Malaking data: isang hamon na 'trilyon-dolyar na pagkakataon'

Malaking data: isang hamon na 'trilyon-dolyar na pagkakataon'

Video: Si Jack at ang Beanstalk | Kwentong Pambata | Mga Kwentong Pambata | Filipino Fairy Tales (Nobyembre 2024)

Video: Si Jack at ang Beanstalk | Kwentong Pambata | Mga Kwentong Pambata | Filipino Fairy Tales (Nobyembre 2024)
Anonim

Ang isang bagay na humanga sa akin sa Bloomberg Enterprise Technology Summit kahapon ay ang pokus sa pagharap sa data sa mga bagong paraan - sa madaling salita, pagharap sa kung ano ang madalas na tinatawag na "malaking data."

Ang ilan sa mga pag-uusap na hinarap ang halaga ng malaking data, at kung ito ay talagang isang "trilyon-dolyar na pagkakataon, " habang ang iba ay humarap sa mga tiyak na hamon ng mga indibidwal na samahan at industriya bilang isang buong mukha sa mas malawak na pag-aalis ng mga bagong pamamaraan.

Gerard Francis, Global Head of Bloomberg Enterprise Solutions, Bloomberg LP nagsimula ang araw sa pamamagitan ng iminumungkahi na ang pinakamahalagang bagay na magagawa ng mga kumpanya ay ang "capitalize sa halaga ng data sa pamamagitan ng paggamit nito, " at tumututok sa pag-access, kalidad, at daloy ng data sa loob ng isang samahan. Sa kasunod na mga panel, maraming pinag-uusapan ang tungkol sa mga bagong tool na may kinalaman sa data, pati na rin ang mga tukoy na isyu sa pag-iimbak, pamamahala, at paghahanap ng mga tao upang makitungo sa data.

Sa isang pangkalahatang panel sa mga uso ng negosyo, si Dwight Merriman, Chairman at Co-Founder ng MongoDB, ay nagsabi na ang data layer ng application track ay ang pagkakaroon ng "pinakamalaking pagkagambala at pagbabago na nakita namin sa 25 taon." Sinabi niya na ang mga kumpanya ay gumagamit ng mga relational database para sa 25 taon o higit pa, na ginagawa ang pinakalumang teknolohiya sa salansan. Ngunit ngayon may mga bagay na nangyayari sa imbakan na nakabatay sa file tulad ng Hadoop at mga bagong teknolohiya sa database, na madalas na pinagsama bilang "NoSQL." Ginawa niya ang punto na ang Big Data ay hindi tungkol sa "malaki" ngunit sa tungkol sa hugis ng data, ang mga uri ng data, at ang paglipat patungo sa pagharap sa data ng real-time.

Pumayag ang Punong Impormasyon ng Punong Impormasyon ng Google na si Benjamin Fried na ang karamihan sa mga negosyo ay walang mga "malaking data" na problema. Marami sa mga set ng data - kasama ang mga bagay tulad ng HR data at data sa pananalapi - hindi iyan malaki, aniya. Ang mahalaga ay ang kakayahang umangkop na kailangan mo upang maayos na makitungo sa data.

Ano ang Big Data Anyway?

Gary Bloom ni MarkLogic, Mark Bregman ni Neustar, Mark Palmer ng Streambase, at Vipul Nagrath ng Bloomberg

Ang konsepto na iyon - ang kakayahang umangkop ay kasinghalaga ng laki ng data - ay ibinalik sa ibang panel sa ibang araw. Doon, sumang-ayon ang mga kalahok na ang mga kumpanya ay nakikipag-usap sa mga aplikasyon ng mabibigat na data sa loob ng mahabang panahon, ngunit nagbago ang scale. Halimbawa, sinabi ni Mark F. Bregman, Senior Vice President at Chief Technology Officer ng Neustar na ang ilang mga kumpanya ay "nag-iimbak ng lahat" sa pag-asang mapatunayan na mahalaga ito.

"Malaki ang mas mahusay na tinukoy bilang pagiging kumplikado, " ayon kay Gary Bloom, CEO at Pangulo ng MarkLogic. Nabanggit niya na maraming mga tinatawag na "malaking data" na aplikasyon na nagsasangkot ng maraming iba't ibang uri ng data, ngunit hindi ang uri ng dami na karaniwang naririnig mo sa mga "malaking data" na aplikasyon.

Nabanggit niya ang isang halimbawa ng trapiko ng hangin na pinagsasama ang data ng panahon, data ng paliparan, data sa geospatial, data ng paglipad, data ng reservation ng airline, at data ng lipunan. Nabanggit niya na ang pakikipag-usap sa heterogenous data ay talagang mahirap gawin sa mga tradisyunal na database ng relational, echoing naunang mga puna mula sa MongoDB's Merriman na ito ang "unang pagbuo ng shift sa database sa loob ng 25 taon" mula nang lumipat kami mula sa mainframe hanggang sa panahon ng mga database ng relational.

Nabanggit niya na maraming mga tao ang pinag-uusapan ang data ng social media, ngunit talagang kailangan itong pagsamahin sa iba pang data upang magkaroon ng isang bagay kung saan maaari mong kabisera. Ang pagsasama-sama ng data na ito ay "ang tunay na halaga."

Siyempre, ang ilang mga aplikasyon ay nagsasangkot ng maraming impormasyon, kasama ang sinasabi ni Bregman na ang heterogeneity ay isang kadahilanan lamang. Nabanggit niya ang data ng DNS, na madaling makabuo ng 8TB ng impormasyon sa isang araw, at ang pangangailangan na mag-imbak ng mga naturang bagay sa Hadoop. Nabanggit ni Bregman at iba pa na pagdating sa "data capitalization, " ang tunay na halaga ay hindi sa hilaw na data, ngunit sa halip ay nasa analytics kapag ito ay nagiging isang bagay na maaari mong magamit. Ang iba sa panel ay sumang-ayon.

Sinabi ng Streambase CEO na si Mark Palmer na ang pagsusuklay ng malaking halaga ng data na may streaming analytics ay mahalaga sa maraming mga aplikasyon; at napag-usapan ang tungkol sa labis na halaga na maaaring nilikha sa pamamagitan ng pagsasama-sama ng tradisyonal at real-time na analytics.

Ngunit pumayag siya na ang pagiging kumplikado ng data ay isang isyu. Nabanggit niya kung paano ang Vivek Ranadivé, na nagpapatakbo ng Tibco (na nagmamay-ari ngayon ng Streambase), ay bumili ng isang koponan ng basketball upang malaman kung paano mapapabuti ng teknolohiya ang karanasan ng fan. Muli niyang napag-usapan ang tungkol sa "pag-aayos ng iba't ibang mga uri ng data, " na nagsisimula sa isang stream ng Twitter ngunit nakakamit din ang iba pang mga uri ng data.

Nabanggit ni Bloom na ang lahat ay nakasalalay sa aplikasyon, na nagsasabing "ang latency ay nasa mata ng tagakita." Ang ilang mga aplikasyon ay kailangang i-parse ang data sa wire bago ito matumbok sa database, habang ang iba ay hindi.

Itinataguyod ni Bregman ang isyu na sa halip na mahirap itong ilipat ang mga mapagkukunan ng compute, ngayon ay lalong nahihirapan na ilipat ang data. Nabanggit niya na para sa maraming mga aplikasyon, ang "lock-in" ay ang lokasyon ng data. Kapag naimbak mo ang iyong data sa isang pampublikong ulap, napakahirap ilipat ito. Bilang isang resulta, sinabi niya, maraming mga organisasyon ang nais na mag-imbak ng napakalaking halaga ng data sa kanilang sariling mga lokasyon, pagkatapos ay maaaring lumipat sa iba't ibang mga provider para sa pag-andar ng compute. Humihiram ng isang termino mula sa Bloom ng MarkLogic, pinag-usapan niya ang tungkol sa kung paano kailangan ng mga organisasyon ng isang "data na nakasentro ng data" bilang isang lugar kung saan pinapanatili mo ang napakalaking halaga ng data.

Ang Big Data ba ay 'Trillion-Dollar Opportunity?'

Porter Bibb ng MediaTech Capital Partners, paggupit sa Doug Cutting, Gaurav Dhillon ng Snaplogic, at Jason Kelly ng Bloomberg Link

Ang isa pang panel ay tinalakay ang mga pagkakataon at mga hamon na dinala ng malaking data, na sumasalamin sa isang puna mula sa Porter Bibb, Managing Partner sa MediaTech Capital Partners. Sinabi ni Bibb na talagang higit sa isang trilyong dolyar ng mga benepisyo para sa mga korporasyon gamit ang mga bagong pamamaraan. Sa ngayon, sinabi niya, "hindi pa namin sinimulang tapikin ang potensyal na alok ng teknolohiyang ito."

Pinag-usapan ni Bibb kung paano mahalaga para sa mga samahan na ihanay ang kanilang diskarte sa data sa diskarte sa negosyo, at nag-aalala na ang karamihan sa mga sistema ng korporasyon at gobyerno ay hindi wasto.

Sa unang sesyon na iyon, sinabi ni Scott Weiss ng Andreessen Horowitz na "Ang Hadoop ay tulad ng pag-iimbak ng cryogen, " kaya tinanong ng moderator na si Jason Kelly ng Bloomberg Link kay Cloudera Chief Architect Doug Cutting, na isa sa mga tagalikha ng Hadoop sa unang lugar, kung paano niya tiningnan na.

Sinabi ng pagputol na pinapayagan ng Hadoop ang mga tao na gumana nang mas maraming data. Sinabi niya na hinihila ng mga organisasyon ang data ng tape, sa halip ginagawa ito online at magagamit. Ang mga customer ay lumilipat mula sa pagtatrabaho gamit ang 90 araw ng data sa lima o 10 taon ng data sa isang "aktibong archive."

Ang isang bilang ng mga tiyak na isyu sa pakikitungo sa lahat ng data na ito ay lumitaw muli sa panel na ito. Kinausap ng Snaplogic CEO Gaurav Dhillon ang tungkol sa "gravity ng data, " na sinasabi na hindi makatwiran na kumuha ng data na nasa mga lugar na nasa Hadoop at ilipat ito sa ulap. Ngunit sa parehong oras, kung mayroong data sa ulap, tulad ng pag-analisa ng pag-click sa stream, walang saysay na ilipat ito sa nasasakupang lugar. Bilang isang resulta, sinabi niya, napakakaunting nakikita niya ang "mga pagkakataon sa cross-border" sa paglipat ng data.

Sinabi ni Cutting na hindi siya naniniwala na mayroong talagang kakulangan ng mga siyentipiko ng data. Sa halip, sinabi niya na maraming tao ang nakakaintindi sa matematika at negosyo, ngunit wala lang silang mga tool. Maaari mong malaman ang mga pangunahing kaalaman ng mga tool at kung ano ang ginagawa nila sa loob ng ilang linggo, sinabi niya, ngunit ang pag-unawa sa iyong negosyo ay tumatagal ng maraming taon. Gayunpaman mayroong maraming mga tao na nakakaintindi sa.

Sinasalamin din ni Dhillon ang mga alalahanin tungkol sa batas tungkol sa kung anong impormasyon ang maaaring maiimbak kung saan. Sinabi niya na ang ilang mga patayong merkado ay nangangailangan ng impormasyon na maiimbak sa mga nasasakupang lugar, ngunit nag-aalala tungkol sa mga bagay tulad ng mga kinakailangan na huwag ilipat ang data mula sa nagmula sa bansa. Ang karamihan sa mga ito ay isang labis na pag-akit sa mga bagay tulad ng mga paghahayag ng Snowden at mga paglabag sa data, sinabi niya, na ang pagpansin na "isang pagmamadali sa batas ay hindi kailanman maganda."

Tinanong kung siya ay nag-aalala na ang mga paglabag sa Snowden at Target ay nakakatakot sa mga customer tungkol sa data, sinabi ni Cutting na nababahala siya na napakaraming mga nag-aalala. Maraming tao ang natatakot sa teknolohiya, aniya, at ito ay isang pagkabigo sa industriya upang gawing komportable ang mga customer sa paniwala na ang kanilang data ay hindi ginagamit. "Hindi mo kailangang maging kakatakot, " aniya.

Sa pagtatapos, maraming talakayan tungkol sa mga pagpapahalaga, kasama ang Bibb na nagmumungkahi ng kamakailang pamumuhunan sa Intel sa Cloudera ay isang "malaking pakikitungo, " dahil pinatunayan nito ang ginagawa ng kumpanya. Sinabi niya na ang iba pang malalaking kumpanya tulad ng Oracle, IBM, Microsoft, at Amazon ay naglalakad sa paligid ng mga mapaghulaang kumpanya ng analytics. "Ang pagsugod ng ginto ay nagsisimula pa lang."

Sinabi ni Dhillon na ang mga pagpapahalaga ay sumasalamin sa kung ano ang dinadala ng mga kumpanya ng pagtutubero sa malaking data market. Sinabi niya na nasisiyahan siyang makita ang mga "pick and shovel" na lalaki na makakuha ng mahusay na mga pagpapahalaga, ngunit sinabi niya na medyo natatakot na ang mga pagpapahalaga ay nauna sa merkado.

Sinabi ni Bibb na naisip niya na ang malaking data ay maaaring mag-overexposed sa media, ngunit hindi ito natuklasan sa "c-suite" (nangangahulugang CEOs, CFO, at iba pang nangungunang executive.) Sinabi niya na mayroon itong "malaking potensyal na pang-ekonomiya na hindi pa natuklasan. . "

Malaking data: isang hamon na 'trilyon-dolyar na pagkakataon'