Bahay Ipasa ang Pag-iisip Ang bahagi ng Google cloud tpus ng isang kalakaran patungo sa mga processors na tiyak

Ang bahagi ng Google cloud tpus ng isang kalakaran patungo sa mga processors na tiyak

2024

Video: Document AI (Nobyembre 2024)

Sa mga huling linggo, nagkaroon ng maraming mahahalagang pagpapakilala ng mga bagong platform ng computing na sadyang idinisenyo para sa pagtatrabaho sa mga malalim na neural network para sa pag-aaral ng makina, kasama ang bagong "cloud TPUs" ng Google at ang bagong disenyo ng Nvidia.

Sa akin, ito ang pinaka-kagiliw-giliw na kalakaran sa arkitektura ng computer-kahit na higit pa sa AMD at ngayon ipinakilala ng Intel ang 16-core at 18-core na mga CPU. Siyempre, may iba pang mga alternatibong pamamaraan, ngunit si Nvidia at Google ay karapat-dapat na makakuha ng maraming pansin para sa kanilang natatanging pamamaraan.

Sa Google I / O, nakita ko itong ipinakilala kung ano ang isang "cloud TPU" (para sa Tensor Processing Unit, na nagpapahiwatig na ito ay na-optimize para sa balangkas ng pag-aaral ng machine ng TensorFlow ng Google). Ang nakaraang henerasyong TPU, na ipinakilala sa palabas noong nakaraang taon, ay isang ASIC na sadyang dinisenyo para sa inferencing - pagpapatakbo ng mga operasyon sa pag-aaral ng machine - ngunit ang bagong bersyon ay idinisenyo para sa inferencing at pagsasanay sa mga naturang algorithm.

Sa isang kamakailang papel, nagbigay ang Google ng higit pang mga detalye sa orihinal na TPU, na inilarawan nito na naglalaman ng isang matris ng 256-by-256 na mga yunit na naipon (MAC) (65, 536 sa kabuuan) na may rurok na pagganap ng 92 teraops (trilyon na operasyon bawat pangalawa). Nakukuha nito ang mga tagubilin mula sa isang host CPU sa paglipas ng bus ng PCIe Gen 3. Sinabi ng Google na ito ay isang 28nm mamatay na mas mababa sa kalahati ng laki ng isang Intel Haswell Xeon 22nm processor, at naipalabas nito ang processor at 28nm K80 processor ng Nvidia.

Ang bagong bersyon, na tinawag na TPU 2.0 o cloud TPU, (nakikita sa itaas), ay naglalaman ng apat na processors sa board, at sinabi ng Google na ang bawat board ay may kakayahang umabot sa 180 teraflops (180 trillion floating point operations per segundo). Tulad ng mahalaga, ang mga board ay idinisenyo upang gumana, gamit ang isang pasadyang high-speed network, kaya kumikilos sila bilang isang solong machine learning supercomputing na tinawag ng Google ang isang "TPU pod."

Ang TPU pod na ito ay naglalaman ng 64 pangalawang henerasyon na TPU at nagbibigay ng hanggang sa 11.5 petaflops upang mapabilis ang pagsasanay ng isang solong malaking modelo ng pagkatuto ng makina. Sa kumperensya, si Fei Fei Li, na pinuno ng pananaliksik sa Google ng Google, ay nagsabi na habang ang isa sa mga malalaking modelo ng pagkatuto ng kumpanya para sa pagsasalin ay tumatagal ng isang buong araw upang sanayin sa 32 ng pinakamahusay na magagamit na mga GPU, maaari na ngayong maging pagsasanay sa ang parehong kawastuhan sa isang hapon gamit ang isa-ikawalong isang TPU pod. Malaking pagtalon yan.

Maunawaan na ang mga ito ay hindi maliit na mga sistema-ang hitsura ng isang Pod ay tungkol sa sukat ng apat na normal na rack ng computing.

At ang bawat isa sa mga indibidwal na processors ay tila may napakalaking init na paglubog, nangangahulugang ang mga board ay hindi maaaring ma-stack nang mahigpit. Hindi pa binigyan ng Google ng maraming detalye sa kung ano ang nagbago sa bersyon na ito ng mga processors o ang magkakaugnay, ngunit malamang na ito rin ay batay sa paligid ng 8-bit MAC.

Noong nakaraang linggo, ipinakilala ni Nvidia ang pinakabagong entry sa kategoryang ito, isang napakalaking chip na kilala bilang Telsa V100 Volta, na inilarawan nito bilang unang CPU na may ganitong bagong arkitektura ng Volta, na idinisenyo para sa mga high-end GPU.

Sinabi ni Nvidia na ang bagong chip ay may kakayahang 120 TensorFlow teraflops (o 15 32-bit TFLOPS o 7.5 64-bit.) Gumamit ito ng isang bagong arkitektura na may kasamang 80 Streaming Multiprocessors (SMs), bawat isa ay kasama ang walong bagong "Tensor Cores" at ay isang 4x4x4 na hanay na may kakayahang magsagawa ng 64 FMA (Fused Multiply-Add) na operasyon bawat orasan. Sinabi ni Nvidia na mag-aalok ito ng chip sa mga workstation ng DGX-1V na may 8 V100 boards sa ikatlong quarter, kasunod ng naunang DGX-1 ng firm na ginamit ang naunang P100 na arkitektura.

Sinabi ng kumpanya na ang $ 149, 000 box na ito ay dapat maghatid ng 960 teraflops ng pagganap ng pagsasanay, gamit ang 3200 watts. Kalaunan, sinabi ng una, magpapadala ito ng isang Personal na DGX Station na may apat na V100, at sa ikaapat na quarter, sinabi nito na ang mga malalaking server ng vendor ay magpapadala ng mga V100 server.

Ang chip na ito ang unang inihayag na gumamit ng 12nm processor ng TSMC, at ito ay magiging isang malaking chip na may 21.1 bilyong transistor sa 815 square square die. Binanggit ni Nvidia kapwa ang Microsoft at Amazon bilang maagang mga customer para sa maliit na tilad.

Tandaan na may malaking pagkakaiba sa pagitan ng mga pamamaraang ito. Ang mga Google TPUs ay talagang pasadyang chips, na idinisenyo para sa mga aplikasyon ng TensorFlow, habang ang Nvidia V100 ay medyo mas pangkalahatang chip, na may kakayahang iba't ibang uri ng matematika para sa iba pang mga aplikasyon.

Samantala, ang iba pang mga malalaking provider ng ulap ay tumitingin sa mga kahalili, kasama ang Microsoft na gumagamit ng parehong mga GPU para sa pagsasanay at mga arrays (FPGA) na mga tarangkahan ng gate (FPGA) para sa inferencing, at nag-aalok ng pareho sa mga customer. Ginagawa ngayon ng Amazon Web Services ang parehong mga pagkakataon ng GPU at FPGA na magagamit sa mga developer. At tinulak ng Intel ang mga FPGA at isang host ng iba pang mga diskarte. Samantala, ang ilang mga bagong start-up ay nagtatrabaho sa mga alternatibong pamamaraan.

Sa ilang mga paraan, ito ang pinaka-marahas na pagbabago na nakita namin sa mga workstation at mga processors ng server sa mga taon, hindi bababa sa simula nang sinimulan ng mga developer ang paggamit ng "GPU compute" ilang taon na ang nakalilipas. Ito ay kaakit-akit na makita kung paano ito bubuo.