Talaan ng mga Nilalaman:
Video: 10 Dahilan Kung Bakit ka MAHIRAP at Paano mo ito Babaguhin (Nobyembre 2024)
Ang data at negosyo intelligence (BI) ay dalawang panig ng parehong barya. Ang mga pagsulong sa pag-iimbak, pagproseso, at pagsusuri ay na-demokratikong data hanggang sa punto kung saan hindi mo kailangang maging isang propesyonal sa database o siyentipiko ng data upang gumana sa napakalaking mga set ng data at makakuha ng mga pananaw. May curve pa rin sa pag-aaral, ngunit ang self-service BI at data visualization tool ay muling tukuyin ang paraan ng paggamit ng mga negosyo sa lahat ng data na kanilang nakolekta sa mga aksyon na analytics. Gayunpaman, may pagkakaiba sa pagitan ng isang kumpanya ng BI o database ng paghuhugas ng advanced na analytics at isang database ng intelihente (AI) na layunin na binuo para sa pag-aaral ng machine machine (ML) at mga modelo ng malalim na pagkatuto.
Ang mga algorithm ng ML ay pinagtagpi sa tela ng karamihan sa software ngayon. Ang mga karanasan sa mga mamimili ay natutunaw sa AI sa pamamagitan ng mga virtual na katulong at, sa software ng negosyo, mayroong mga halimbawa tulad ng Salesforce Einstein na kumikilos bilang isang matalinong layer sa ilalim ng buong portfolio ng pamamahala ng customer (CRM) portfolio. Ang mga higante ng teknolohiya, kabilang ang Google at Microsoft, ay nagtutulak sa aming matalinong hinaharap nang higit pa, hindi lamang sa pananaliksik ngunit sa pamamagitan ng pagsulat muli kung paano gumagana ang kanilang tech mula sa ground up sa AI.
Ang isa sa mga hamon na may pagsasanay sa machine at malalim na mga modelo ng pag-aaral ay ang dami ng data at lakas ng pagproseso na kailangan mo upang sanayin ang isang neural network, halimbawa, sa kumplikadong pagkilala sa pattern sa mga patlang tulad ng pag-uuri ng imahe o natural na pagproseso ng wika (NLP). Samakatuwid, ang mga database ng AI ay nagsisimula upang mag-pop up sa merkado bilang isang paraan upang ma-optimize ang proseso ng pag-aaral at pagsasanay sa AI para sa mga negosyo. Nakipag-usap kami sa provider ng database ng relasyong GPU na Kinetica, na nagtayo ng isang database ng AI, at ang residente ng BI at database ng PCMag na si Pam Baker upang ipakita kung ano ang isang database ng AI at kung paano ito gumagana kumpara sa tradisyonal na mga database. Mas mahalaga, hiniling namin ang kanilang tulong upang maiuri ang hype at ang pagsasalita sa marketing upang matukoy kung ang umuusbong na tech na ito ay may tunay na halaga ng negosyo.
Ano ang Mga Database sa AI?
Ang mabilis na pagbabago ng kalikasan ng puwang ng AI ay nagpapahirap na magtatag ng terminolohiya. Madalas mong maririnig ang mga termino tulad ng ML, malalim na pag-aaral, at AI na ginamit nang mapagpalit kapag, sa katunayan, ang mga ito ay patuloy pa rin ang pagbubuo ng mga pamamaraan sa ilalim ng mas malaking payong ng AI. Tulad nito, sinabi ni Baker na mayroong dalawang malawak na magkakaibang mga kahulugan ng kung ano ang isang database ng AI ay nakasalalay sa kung sino ang iyong kakausapin: isang praktikal at ang iba pang higit na pie-in-the-sky.
"Mayroong isang uri ng maluwag na pinagkasunduan sa industriya na ang isang database ng AI ay magiging isa na gagana nang ganap sa mga query sa likas na wika. Ang interface ng gumagamit ay magiging tulad na hindi mo kailangang umasa sa mga termino ng paghahanap at mga pangunahing parirala upang mahanap ang impormasyon na kailangan mo, na nagpapahintulot sa gumagamit na ipatawag ang mga set ng data sa NLP, "sabi ni Baker. "Maaari kang gumawa ng isang limitadong argumento na ang IBM Watson ay maaaring magpahiwatig ng natural na mga query sa wika sa system, ngunit kailangan mong makakonekta sa data na at piliin mismo ang data. Kaya, ngayon, ang kahulugan na ito ay isang kahabaan."
Ang mas praktikal na kahulugan, at ang paksa ng paliwanag na ito, ay mahalagang gumamit ng isang database na binuo ng layunin upang mapabilis ang pagsasanay sa modelo ng ML. Ang isang bilang ng mga kumpanya ng tech ay nakabuo na ng mga nakatuong AI chips upang maibsan ang mabibigat na pag-load ng pagproseso sa mga bagong produkto ng hardware habang ang mga vendor ay nagpapalabas ng higit pang mga tampok na batay sa AI na nangangailangan ng makabuluhang kapangyarihan sa compute. Sa panig ng data, ang paggamit ng isang database ng AI ay makakatulong sa iyo na mas mahusay na guluhin ang dami, bilis, at kumplikadong pamamahala ng data at mga hamon sa pamamahala na nauugnay sa pagsasanay sa ML at mga malalim na pagkatuto ng mga modelo upang makatipid ng oras at ma-optimize ang mga mapagkukunan.
Credit ng larawan: si Todd Jaquith sa Futurism.com. Mag-click upang mapalawak ang buong infographic
"Sa ngayon maraming mga pagsisikap na pabilisin ang pagsasanay sa ML sa pamamagitan ng maraming iba't ibang mga taktika, " paliwanag ni Baker. "Ang isa ay upang paghiwalayin ang imprastraktura mula sa mga mananaliksik ng AI na gumagawa ng coding, upang ang mga awtomatikong pag-andar ay humahawak sa imprastruktura at pagsasanay sa modelo ng ML. Kaya, sa halip na paggastos ng isang bagay tulad ng tatlong buwan, maaaring tumingin ka sa 30 araw o 30 minuto. "
Sinira ng Kinetica ang ideyang iyon sa isang integrated platform platform na na-optimize para sa ML at malalim na pag-aaral ng pagmomolde. Pinagsasama ng AI database ang warehousing ng data, advanced analytics, at visualization sa isang in-memory database. Ipinaliwanag ni Mate Radalj, Bise Presidente at Principal Software Engineer ng Advanced Technology Group ng Kinetica, na ang isang database ng AI ay dapat na sabay na mag-ingest, galugarin, suriin, at mailarawan ang mabilis na paglipat, kumplikadong data sa loob ng mga millisecond. Ang layunin ay upang mas mababa ang gastos, makabuo ng mga bagong kita, at pagsamahin ang mga modelo ng ML upang ang mga negosyo ay maaaring gumawa ng mas mahusay, mga desisyon na hinihimok ng data.
"Ang isang database ng AI ay isang subset ng isang pangkalahatang database, " sabi ni Radalj. "Sa ngayon, ang mga database ng AI ay napaka-tanyag. Ngunit ang isang pulutong ng mga solusyon ay gumagamit ng mga ipinamamahagi na bahagi. Spark, MapReduce at HDFS ay palaging umiikot pabalik-balik sa halip na nasa memorya. Wala silang kumpol ng mga kadahilanan tulad ng aming database, na kung saan ay itinayo mula sa lupa na may mahigpit na pinagsamang mga CPU at GPU sa isang solong platform.Ang mataas na antas ng benepisyo para sa amin ay mas mabilis na pagkakaloob at isang mas mababang hardware ng paa ng pagsasanay na nakabatay sa modelo, na may isang mabilis na pag-turnaround at analytics na isinama sa parehong platform. "
Paano gumagana ang isang Database sa AI
Mayroong isang bilang ng mga halimbawa ng mga database ng AI sa pagsasanay. Nag-aalok ang Microsoft Batch AI ng mga cloud-based na imprastraktura para sa pagsasanay ng malalim na pag-aaral at mga modelo ng ML na tumatakbo sa Microsoft Azure GPUs. Ang kumpanya ay mayroon ding produkto ng Azure Data Lake upang gawing mas madali para sa mga negosyo at data ng mga siyentipiko na iproseso at pag-aralan ang data sa isang ibinahagi na arkitektura.
Ang isa pang halimbawa ay ang diskarte ng AutoML ng Google, na panimula muling muling inhinyero ang paraan ng pagsasanay ng mga modelo ng ML. Binubuo ng Google AutoML ang disenyo ng modelo ng ML upang makabuo ng mga bagong arkitektura ng neural network batay sa mga partikular na hanay ng data, at pagkatapos ay subukan at umulit sa mga libu-libong beses upang ma-code ang mas mahusay na mga system. Sa katunayan, ang AI ng Google ay maaari na ngayong lumikha ng mas mahusay na mga modelo kaysa sa mga mananaliksik ng tao.
"Tumingin sa Google AutoML: ML pagsulat ng ML code upang hindi mo na kailangan ang mga tao, " sabi ni Baker. "Nagbibigay ito sa iyo ng isang ideya kung ano ang isang matinding pagkakaiba doon sa ginagawa ng mga nagtitinda. Ang ilan ay nagsisikap na palampasin ang mga advanced na analytics bilang ML-at hindi. At ang iba ay gumagawa ng ML sa tulad ng isang advanced na antas na lampas sa kung ano ang karamihan maaaring maunawaan ang mga negosyo sa ngayon. "
Tapos may Kinetica. Ang startup na nakabase sa San Francisco, na nagtaas ng $ 63 milyon sa pagpopondo ng venture capital (VC), ay nagbibigay ng isang mataas na pagganap na SQL database na na-optimize para sa mabilis na pagsisisi ng data at analytics. Kinetica ang inilarawan ni Radalj bilang isang malawak na kahanay na pagproseso (MPP) na namamahagi ng database at platform ng computing kung saan nagtatampok ang bawat node ng co-matatagpuan na data sa memorya, CPU, at GPU.
Ano ang naiiba sa isang database ng AI mula sa isang tradisyonal na database, ipinaliwanag ni Radalj, bumaba sa tatlong pangunahing elemento:
- Pinabilis na pagsisisi ng data,
- Co-lokalidad ng data sa memorya (kahanay na pagproseso sa mga node ng database), at
- Ang isang karaniwang platform para sa mga siyentipiko ng data, mga inhinyero ng software, at mga tagapangasiwa ng database upang umulit at masubok ang mga modelo nang mas mabilis at ilapat ang mga resulta nang direkta sa analytics.
Para sa lahat ng mga di-database at mga eksperto sa pagsasanay sa modelo ng AI na binabasa ito, sinira ni Radalj ang bawat isa sa tatlong mga pangunahing elemento na ito at ipinaliwanag kung paano ang Ai database ay nagtatalakay sa nasasabing halaga ng negosyo. Ang pagkakaroon ng data at data saestion ay susi, aniya, dahil ang kakayahang iproseso ang data ng streaming ng real-time ay nagbibigay-daan sa mga negosyo na gumawa ng mabilis na pagkilos sa mga pananaw na hinimok ng AI.
"Mayroon kaming isang customer na tingian nais na subaybayan ang mga nagbebenta ng mga rate sa pamamagitan ng tindahan, bawat limang minuto, " sabi ni Radalj. "Nais naming gamitin ang AI upang mag-forecast, batay sa huling ilang oras ng makasaysayang data, kung dapat ba nilang muling lagyan ng imbentaryo at i-optimize ang proseso na iyon. Ngunit upang gawin ang muling pagdiskubre ng imbentaryo ng makina ay nangangailangan ng pagsuporta sa 600-1200 mga query sa bawat segundo. Kami Mayroon kaming isang database ng SQL at isang database ng AI, kaya maaari naming ingest data sa rate na iyon. Sinusulong namin na ang misyon ng negosyo ay nagresulta sa isang application na humimok ng mas maraming ROI. "
Sumang-ayon ang Baker na ang ML ay nangangailangan ng isang malawak na dami ng data kaya ang pag-ingting nang mabilis ay magiging napakahalaga para sa isang database ng AI. Ang pangalawang kadahilanan, ang konsepto ng "co-lokalidad ng data ng memorya, " ay tumatagal ng kaunti pang paliwanag. Nag-iimbak ang data ng database ng memorya sa pangunahing memorya sa halip na sa hiwalay na imbakan ng disk. Ginagawa nito upang maproseso ang mga query nang mas mabilis, lalo na sa mga analytics at BI database. Sa pamamagitan ng co-lokalidad, ipinaliwanag ni Radalj na hindi pinaghiwalay ni Kinetica ang CPU at GPU compute node kumpara sa mga node ng imbakan.
Bilang isang resulta, sinusuportahan ng database ng AI ang kahanay na pagproseso - na gayahin ang kakayahan ng utak ng tao na maproseso ang maraming stimuli - habang natitirang ipinamamahagi din sa buong nasusukat na imprastraktura ng database. Pinipigilan nito ang mas malaking bakas ng hardware, na nagreresulta mula sa tinatawag na Radalj na "data shipping" o ang pangangailangan na magpadala ng data pabalik-balik sa pagitan ng iba't ibang mga bahagi ng database.
"Ang ilang mga solusyon ay gumagamit ng isang orkestra tulad ng IBM Symphony upang mag-iskedyul ng trabaho sa iba't ibang mga bahagi samantalang ang Kinetica stresses ay nagpapatakbo ng pagpapadala laban sa mga mapagkukunan na kasama, na may advanced na pag-optimize upang mabawasan ang pagpapadala ng data, " sabi ni Radalj. "Ang co-lokalidad na nagbibigay ng sarili sa higit na mahusay na pagganap at throughput, lalo na para sa lubos na kasabay na mabibigat na pagtatanong sa mga malalaking set ng data."
Sa mga tuntunin ng aktwal na database ng hardware, ang Kinetica ay nakipagtulungan sa Nvidia, na mayroong isang pagpapalawak ng lineup ng AI GPUs at ang paggalugad ng mga pagkakataon sa Intel. Sinabi rin ni Radalj na ang kumpanya ay nagbabantay sa umuusbong na hardware ng AI at imprastraktura na nakabase sa cloud tulad ng Tensor Processing Units (TPU) ng Google.
Sa wakas, mayroong ideya ng isang pinag-isang proseso ng pagsasanay sa modelo. Ang isang database ng AI ay epektibo lamang kung ang mga benepisyo ng mas mabilis na paglunok at pagproseso ay nagsisilbi ng mas malaki, mga layunin na nakatuon sa negosyo para sa ML at isang pagsusumikap ng malalim na pag-aaral. Ang Radalj ay tumutukoy sa database ng AI ni Kinetica bilang isang "platform pipeline platform" na nagsasagawa ng data sa pag-host na modelo ng science.
Ang lahat ng ito ay nagbibigay ng sarili sa mas mabilis na pagsubok at pag-iilaw upang bumuo ng mas tumpak na mga modelo ng ML. Sa puntong ito, sinabi ni Baker na ang pakikipagtulungan sa isang pinag-isang paraan ay makakatulong sa lahat ng mga inhinyero at mananaliksik na nagtatrabaho upang sanayin ang isang ML o malalim na modelo ng pag-aaral na mapabilis nang mas mabilis sa pamamagitan ng pagsasama ng kung ano ang gumagana, kumpara sa patuloy na muling pagsasaayos ng lahat ng mga hakbang sa proseso ng pagsasanay. Sinabi ni Radalj na ang layunin ay upang lumikha ng isang daloy ng trabaho kung saan ang mas mabilis na paglunok ng batch, streaming, at pag-query sa pagbuo ng mga resulta ng modelo na maaaring agad na mailalapat sa BI.
"Ang mga siyentipiko ng data, mga inhinyero ng software, at mga tagapangasiwa ng database ay may isang solong platform kung saan ang trabaho ay maaaring malinis na malinis sa data science mismo, pagsulat ng software program, at mga modelo ng SQL at mga query ng data, " sabi ni Radalj. "Ang mga tao ay mas malinis na nagtatrabaho sa iba't ibang mga domain kapag ito ay isang pangkaraniwang platform. Ang layunin nang mas madalas kaysa sa hindi sa pagpapatakbo ng ML at malalim na pag-aaral ay, nais mong gamitin ang mga resulta ng iyon - ang mga co-efficients at variable - kasabay ng analytics, at gamitin ang output para sa mga bagay tulad ng pagmamarka o upang mahulaan ang isang bagay na kapaki-pakinabang. "
Hype o Reality?
Ang halaga ng ilalim na linya ng isang database ng AI, hindi bababa sa paraan na tinukoy ito ng Kinetica, ay sa pag-optimize ng mga mapagkukunan ng compute at database. Ito naman, hinahayaan kang lumikha ng mas mahusay na ML at malalim na mga modelo ng pag-aaral, sanayin ang mga ito nang mas mabilis at mas mahusay, at mapanatili ang isang linya sa kung paano mailalapat ang AI sa iyong negosyo.
Nagbigay si Radalj ng halimbawa ng isang pamamahala ng armada o kumpanya ng trucking. Sa pagkakataong ito, ang isang database ng AI ay maaaring magproseso ng napakalaking daloy ng impormasyon ng real-time mula sa isang fleet ng mga sasakyan. Pagkatapos, sa pamamagitan ng pagmomodelo ng data na geospatial at pagsasama-sama ito ng analytics, ang database ay maaaring pabalik na muling mag-ruta ng mga trak at ma-optimize ang mga ruta.
"Madali itong mabilis na pagkakaloob, prototype, at pagsubok. Ang salitang 'pagmomolde' ay itinapon sa AI, ngunit lahat ito ay tungkol sa pagbibisikleta sa pamamagitan ng iba't ibang mga diskarte - ang mas maraming data, mas mabuti - pagpapatakbo ng mga ito muli at muli, pagsubok, paghahambing, at lalabas ng pinakamahusay na mga modelo, "sabi ni Radalj. "Nabigyan ng buhay ang mga Neural network dahil may mas maraming data kaysa dati. At natututo kaming makalkula sa pamamagitan nito."
Sa huli, ang co-matatagpuan na database ng platform at pipeline platform ni Kinetica ay isa lamang sa isang diskarte sa isang puwang na maaaring mangahulugan ng maraming iba't ibang mga bagay depende sa kung sino ang tatanungin mo. Sinabi ni Baker na ang hamon para sa bumibili sa isang merkado na umuusbong at eksperimentong ay malaman kung ano mismo ang isang nagtitinda ng database ng AI.
"Bilang konsepto ng negosyo, malalim na pag-aaral, ML, at lahat ng iyon ay isang matatag na konsepto. Ang pinagtatrabahuhan namin ay mga isyu sa tech na malulutas, kahit na hindi pa natin ito malulutas, " sabi ni Baker. "Hindi sasabihin na ito ay isang mature na puwang dahil tiyak na hindi. Sasabihin ko na ang 'buyer beware' dahil may isang bagay na hangga't maaari o hindi. Ang ML ay maaaring maging iba't ibang advanced na analytics."
Kung tungkol sa kung ang mga database ng AI ay lahat ng hype ngayon o kung kumakatawan sila sa isang mahalagang kalakaran para sa kung saan pupunta ang negosyo, sinabi ni Baker na medyo pareho ito. Sinabi niya na ang Big Data, bilang isang term sa marketing, ay wala na sa ngayon. Sinabi ni Baker na mayroon na ngayong ilang pagkukumpuni sa merkado sa pagitan ng mga advanced, analytics na hinihimok ng data at tunay na ML at malalim na pag-aaral ng algorithm. Hindi alintana, kung pinag-uusapan mo ang tungkol sa isang database para sa pagmomolde ng ML o ang mga may pagkaalam sa sarili na mga AIs na pinangarap ng pop culture, lahat ito ay nagsisimula at nagtatapos sa data.
"Ang data ay gagamitin sa negosyo hanggang sa matapos ang oras; ito lamang ang sentro sa paggawa ng negosyo, " sabi ni Baker. "Kung pinag-uusapan mo ang mga tuntunin ng fiction sa science, ang AI ay isang intelihente na natanto sa sarili. Iyon ay kapag sinimulan mo na ang pakikipag-usap tungkol sa mga pagka-isa at mga robot na kumukuha sa mundo. Nangyayari man iyon o hindi, hindi ko alam. Aalis ako. iyon kay Stephen Hawking. "