Bahay Ipasa ang Pag-iisip Hot chips: ang pag-aaral ng makina ay tumatagal ng entablado

Hot chips: ang pag-aaral ng makina ay tumatagal ng entablado

2024

Video: 'Everything hurts': One Chip Challenge takes down CTV Calgary team (Nobyembre 2024)

Ang pinakamainit na paksa sa pag-compute ng mga araw na ito ay ang pag-aaral ng makina, at iyon ay tiyak na makikita sa bahagi ng hardware. Sa mga nagdaang linggo, marami kaming naririnig tungkol sa mga bagong chips na dinisenyo para sa malalim na pag-aaral, mula sa Nvidia's Tesla P100 at Drive PX 2 sa Tensor Processing Units ng Google sa Intel's Xeon Phi. Kaya, hindi nakakagulat na sa kumperensya ng Hot Chips noong nakaraang linggo ay narinig namin mula sa isang iba't ibang mga kumpanya na may ilang iba't ibang mga diskarte upang magdisenyo ng iniayon sa pag-aaral ng machine at pagproseso ng pangitain.

Marahil ang pinakamalaking balita ay ang pagsisiwalat ni Nvidia ng mas detalyado sa kanyang Parker chip, na ginamit sa module na Drive PX 2 para sa mga self-driving na kotse at naglalayong malalim na pag-aaral para sa mga autonomous machine. Ang chip na ito ay gumagamit ng dalawang pasadyang built ARM-katugmang mga core ng ARS na CPU, apat na ARM Cortex-A57 na mga cores, at 256 ng kung ano ang mga tuntunin ng Nvidia na Pascal CUDA (graphics) na mga cores.

Sinabi ni Nvidia na ito ang una nitong chip na idinisenyo at na-rate para sa paggamit ng automotiko, na may mga espesyal na tampok na nababanat, at napag-usapan ang mas mabilis na bilis at memorya nito, na napapansin na ang pangunahing Denver ay nagbibigay ng isang makabuluhang pagpapabuti sa pagganap sa bawat wat. Kabilang sa mga bagong tampok ay virtualization na tinulungan ng hardware, na may hanggang sa 8 VMS upang paganahin ang pagsasama ng mga tampok ng kotse na ayon sa kaugalian na ginagawa sa hiwalay na mga computer. Sa pangkalahatan, sinabi ng kumpanya na ang modelo ng Drive PX 2 ay maaaring magkaroon ng dalawa sa mga Parker chips at dalawang discrete GPUs, na may kabuuang pagganap ng 8 teraflops (dobleng katumpakan) o 24 na malalim na operasyon sa pag-aaral (8-bit, o kalahating katumpakan.) kasama ng kumpanya ang mga benchmark na inihahambing ito ng mabuti laban sa kasalukuyang pagproseso ng mobile gamit ang SpecInt_2000, isang medyo lumang benchmark. Ngunit ang pagganap ay mukhang kahanga-hanga, at kamakailan ay sinabi ni Volvo na gagamitin ito upang subukan ang mga autonomous na sasakyan na magsisimula sa susunod na taon.

Siyempre, maraming iba pang mga diskarte.

Ang startup ng Tsina na si DeePhi ay tinalakay ang isang platform na batay sa FPGA para sa mga neural network, na may dalawang magkakaibang arkitekto depende sa uri ng kasangkot sa network. Ang Aristotle ay idinisenyo para sa medyo maliit na koneksyon sa neural network at batay sa Xilinx Zynq 7000, habang ang Descartes ay dinisenyo para sa mas malaking paulit-ulit na neural network gamit ang pangmatagalang memorya (RNN-LSTM), batay sa Kintex Ultrascale FPGA. Inaangkin ng DeePhi na ang tagagawa nito at ang arkitektura ay pinutol ang oras ng pag-unlad kung ihahambing sa karamihan ng mga paggamit ng FPGA at din na ang paggamit ng isang FPGA ay maaaring makapaghatid ng mas mahusay na pagganap kaysa sa mga solusyon sa Tegra K1 at K40 ng Nvidia.

Ang isa pang diskarte ay ang paggamit ng isang digital signal processor o DSP, na karaniwang gumaganap ng isang tiyak na pag-andar o isang maliit na hanay ng mga pag-andar nang napakabilis, gamit ang napakaliit na enerhiya. Kadalasan ang mga ito ay naka-embed sa iba pang mga mas kumplikadong chips upang mapabilis ang ilang mga pag-andar, tulad ng pagproseso ng paningin. Ang isang bilang ng mga kumpanya, kabilang ang Movidius, CEVA, at Cadence ay nagbabahagi ng kanilang mga solusyon sa Hot Chips.

Ipinakita ni Movidius ang solusyon na nakabase sa DSP na kilala bilang yunit ng pagpoproseso ng Myriad 2, at ipinakita ito sa drone ng DJI Phantom 4. Ipinakita rin nito kung paano ang Myriad 2 outperforms GPUs at ang GoogLeNet malalim na neural network na ginamit sa 2014 ImageNet contest.

Ang CEVA ay nagtataguyod ng CEVA-XM4 Vision DSP, partikular na na-tono para sa pagproseso ng paningin at naglalayong sa automotive market, kasama ang platform ng CEVA Deep Neural Network 2, na sinabi nito na maaaring kumuha ng anumang nakasulat para sa Caffe o TensorFlow frameworks at mai-optimize ito upang patakbuhin sa DSP nito. Ang bagong processor ay dapat na sa SoCs sa susunod na taon.

Samantala, ang Cadence, na gumagawa ng pamilya ng Tensilica ng mga processors ng pangitain (na maaaring mai-embed sa iba pang mga produkto), ay tinalakay ang pinakabagong bersyon, ang Vision P6, na nagdagdag ng mga bagong tampok tulad ng suporta sa vector na lumulutang-point at iba pang mga tampok para sa convolutional neural network . Ang mga unang produkto ay dapat na lumabas sa ilang sandali.

Pinag-uusapan ni Microsoft ang tungkol sa mga detalye ng hardware para sa headset ng HoloLens, sinabi nito na ginamit ang isang 14nm Intel Atom Cherry Trail processor na tumatakbo sa Windows 10 at isang pasadyang Holographic Processing Unit (HPU 1.0) sensor hub, na ginawa ni TSMC sa isang proseso ng 28nm. Kasama dito ang 24 na mga Tensilica DSP cores.

Lalo akong kinunan ng isa sa mga slide ni Cadence na nagpakita ng mga pagkakaiba-iba sa throughput at kahusayan ng mga GPU, FPGA, at iba't ibang uri ng DSP sa mga tuntunin ng pagdaragdag-pagdaragdag ng mga operasyon, isa sa mga pangunahing mga bloke ng gusali para sa mga neural network. Habang malinaw naman ang paglilingkod sa sarili (tulad ng lahat ng mga pagtatanghal ng vendor), itinuro nito kung paano nag-iiba ang iba't ibang mga pamamaraan sa mga tuntunin ng bilis at kahusayan (pagganap sa bawat watt), hindi sa banggitin ang gastos at kadalian ng programming. Mayroong maraming mga solusyon para sa iba't ibang mga diskarte dito, at magiging kawili-wili upang makita kung paano ito umuusbong sa susunod na ilang taon.