Talaan ng mga Nilalaman:
Video: Pagbuo ng Panukalang Pananaliksik (Nobyembre 2024)
Sa kumperensya ng SC16 Supercomputing sa buwang ito, dalawang kalalakihan ang tumayo. Ang una ay ang hitsura ng pinakabagong Xeon Phi (Knights Landing) at pinakabagong Tesla (ang Pascal na nakabase sa Pascal) sa Top500 na listahan ng pinakamabilis na computer sa buong mundo; ang parehong mga sistema na nakarating sa tuktok 20. Ang pangalawa ay isang malaking diin sa kung paano ang mga gumagawa ng chip at system ay kumukuha ng mga konsepto mula sa mga modernong sistema ng pag-aaral ng makina at inilalapat ang mga ito sa mga supercomputers.
Sa kasalukuyang pagbabago sa listahan ng Top500, na kung saan ay maa-update ng dalawang beses taun-taon, ang tuktok ng tsart ay matatag pa rin sa kamay ng Sunway TaihuLight computer mula sa National Supercomputing Center sa Wuxi, at ang Tianhe-2 computer mula sa National Super Computer ng China Center sa Guangzhou, dahil ito ay mula pa noong ipakita ng ISC16 noong Hunyo. Walang ibang mga computer ang malapit sa kabuuang pagganap, kasama ang pangatlo at pang-apat na ranggo ng mga sistema - pa rin ang Titan supercomputer sa Oak Ridge at ang Sequoia system sa Lawrence Livermore - kapwa naghahatid ng halos kalahati ng pagganap ng Tianhe-2.
Ang una sa mga ito ay batay sa isang natatanging processor ng Intsik, ang 1.45GHz SW26010, na gumagamit ng 64-bit RISC core. Ito ay may isang hindi katumbas na 10, 649, 600 cores na naghahatid ng 125.4 petaflops ng theoretical peak throughput at 93 petaflops ng maximum na sinusukat na pagganap sa benchmark ng Linpack, gamit ang 15.4 Megawatts ng kapangyarihan. Dapat pansinin na habang ang makina na ito ay nangunguna sa mga tsart sa pagganap ng Linpack sa pamamagitan ng isang malaking margin, hindi masyadong maayos ang pamasahe sa iba pang mga pagsubok. Mayroong iba pang mga benchmark tulad ng benchmark ng High Performance Conjugate Gradients (HPCG), kung saan ang mga makina ay may posibilidad na makita lamang ang 1 hanggang 10 porsyento ng kanilang pagganap sa teoretikal na rurok, at kung saan ang nangungunang sistema - sa kasong ito, ang makina ng Riken K - ay naghahatid pa ng mas kaunti kaysa sa 1 petaflop.
Ngunit ang mga pagsubok sa Linpack ay ang pamantayan para sa pakikipag-usap tungkol sa high-performance computing (HPC) at kung ano ang ginagamit upang lumikha ng listahan ng Top500. Gamit ang mga pagsubok sa Linpack, ang No 2 machine, Tianhe-2, ay No. 1 sa tsart sa nakaraang ilang taon, at gumagamit ng Xeon E5 at mas matandang Xeon Phi (Knights Corner) na mga accelerator. Nag-aalok ito ng 54.9 petaflops ng teoretikal na pagganap ng rurok, at mga benchmark sa 33.8 petaflops sa Linpack. Naniniwala ang maraming mga tagamasid na ang isang pagbabawal sa pag-export ng mga mas bagong bersyon ng Xeon Phi (Knights Landing) ang nanguna sa mga Tsino na lumikha ng kanilang sariling superkomputer na processor.
Ang Knights Landing, na pormal na Xeon Phi 7250, ay gumanap ng isang malaking papel sa mga bagong sistema sa listahan, na nagsisimula sa Cori supercomputer sa Lawrence Berkeley National Laboratory na pumapasok sa ikalimang lugar, na may isang rurok na pagganap ng 27.8 petaflops at isang sinusukat na pagganap ng 14 petaflops . Ito ay isang Cray XC40 system, gamit ang Aries interconnect. Tandaan na ang Knights Landing ay maaaring kumilos bilang isang pangunahing processor, na may 68 na cores bawat processor na naghahatid ng 3 peak teraflops. (Inililista ng Intel ang isa pang bersyon ng chip na may 72 mga cores sa 3.46 teraflops ng tugatog na teoretikal na double precision na pagganap sa listahan ng presyo nito, ngunit wala sa mga makina sa listahan ang gumagamit ng bersyon na ito, marahil dahil mas mahalaga ito at gumagamit ng mas maraming enerhiya.)
Mas maaga si Xeon Phis ay maaari lamang tumakbo bilang mga accelerator sa mga system na kinokontrol ng mga tradisyunal na processors na Xeon. Sa ika-anim na lugar ay ang sistema ng Oakforest-PACS ng Joint Center para sa Advanced na High Performance Computer ng Japan, na sumusukat sa 24.9 peak petaflops. Ito ay itinayo ng Fujitsu, gamit ang Knights Landing at Intelni-Path interconnect. Ang Knights Landing ay ginagamit din sa No. 12 system (Ang computer ng Marconi sa CINECA ng Italya, na itinayo ni Lenovo at paggamit ng Omni-Path) at ang No. 33 system (ang Camphor 2 sa Kyoto University ng Japan, na binuo ni Cray at gamit ang Aries magkakaugnay).
Si Nvidia ay mahusay na kinakatawan din sa bagong listahan. Ang sistemang No. 8, Piz Daint sa The Swiss National Supercomputing Center, ay na-upgrade sa isang Cray XC50 kasama ang Xeons at Nvidia Tesla P100, at ngayon ay nag-aalok lamang sa ilalim ng 16 petaflops ng teoretikal na pagganap ng rurok, at 9.8 petaflops ng pagganap ng Linpack - isang malaking mag-upgrade mula sa 7.8 petaflops ng pagganap ng rurok at 6.3 petaflops ng pagganap ng Linpack sa mas maaga nitong pag-ulit batay sa Cray XC30 kasama ang mga accelerator ng Nvidia K20x.
Ang iba pang sistema na nakabase sa P100 sa listahan ay ang sariling Dvx Saturn V ng Nvidia, batay sa sariling sistema ng DGX-1 ng kumpanya at isang interconnect na Infiniband, na dumating sa No. 28 sa listahan. Tandaan na ang Nvidia ay nagbebenta ngayon ng parehong mga processors at ang DGX-1 appliance, na kasama ang software at walong Tesla P100s. Ang sistema ng DGX Saturn V, na ginagamit ng Nvidia para sa panloob na pananaliksik sa AI, ay umaiskor ng halos 4.9 rurok na petaflops at 3.3 Linpack petaflops. Ngunit kung ano ang itinuturo ni Nvidia ay gumagamit lamang ito ng 350 kilowatt ng kapangyarihan, na ginagawang mas mahusay ang enerhiya. Bilang isang resulta, ang sistemang ito ay nangunguna sa listahan ng Green500 na pinaka-mahusay na sistema ng enerhiya. Itinuturo ng Nvidia na ito ay mas kaunting enerhiya kaysa sa Xeon Phi na nakabase sa Camphor 2 system, na may katulad na pagganap (halos 5.5 petaflops peak at 3.1 Linpack petaflops).
Ito ay isang kagiliw-giliw na paghahambing, kasama ang Nvidia touting mas mahusay na kahusayan ng enerhiya sa mga GPU at Intel touting isang mas pamilyar na modelo ng programming. Sigurado ako makakakita kami ng higit pang kumpetisyon sa mga darating na taon, dahil ang magkakaibang mga arkitektura ay nakikipagkumpitensya upang makita kung alin sa mga ito ang magiging unang makarating sa "exascale computing" o kung ang diskarte sa paglaki ng bahay na Tsino ay makukuha doon. Sa kasalukuyan, inaasahan ng US Department of Energy's Exascale Computing Project ang unang makina ng exascale na mai-install sa 2022 at mabuhay nang sumunod na taon.
Nakahahanap ako na kawili-wili na tandaan na sa kabila ng diin sa maraming mga pangunahing accelerator tulad ng mga solusyon sa Nvidia Tesla at Intel Xeon Phi, ang mga 96 na sistema lamang ang gumagamit ng mga naturang accelerator (kabilang ang mga gumagamit ng Xeon Phi lamang); kumpara sa 104 na mga sistema sa isang taon na ang nakalilipas. Ang Intel ay patuloy na pinakamalaking pinakamalaking provider ng chip, kasama ang mga chips nito sa 462 ng nangungunang 500 system, na sinundan ng mga tagaproseso ng IBM Power sa 22. Hewlett-Packard Enterprise ay nilikha ang 140 mga sistema (kabilang ang mga itinayo ng Silicon Graphics, na nakuha ng HPE), itinayo ni Lenovo) 92, at Cray 56.
Kumpetisyon sa Pagkatuto ng Machine
Mayroong isang bilang ng mga anunsyo sa o sa paligid ng palabas, na ang karamihan sa mga deal sa ilang mga form ng artipisyal na katalinuhan o pag-aaral ng makina. Inihayag ni Nvidia ang isang pakikipagtulungan sa IBM sa isang bagong tool sa pag-aaral ng malalim na pag-aaral na tinatawag na IBM PowerAI na nagpapatakbo ng mga server ng IBM Power gamit ang interconnect ng Nvidia.
Ang AMD, na naging napag-isipan sa parehong mga kapaligiran ng HPC at machine-learning, ay nagtatrabaho upang baguhin iyon. Sa lugar na ito, ang kumpanya ay nakatuon sa sarili nitong Radeon GPUs, itinulak ang mga GPP ng FirePro S9300 x2, at inihayag ang isang pakikipagtulungan sa Google Cloud Platform upang paganahin itong magamit sa ulap. Ngunit ang AMD ay hindi namuhunan nang labis sa software para sa mga programa ng GPU, dahil binibigyang diin nito ang OpenCL sa higit na pagmamay-ari na pamamaraan ng Nvidia. Sa palabas, ipinakilala ng AMD ang isang bagong bersyon ng Radeon Open Compute Platform (ROCm), at touted na mga plano upang suportahan ang mga GPU nito sa mga mahuhusay na senaryo ng computing na may maraming mga CPU, kabilang ang darating na "Zen" x86 na mga CPU, mga arkitektura ng ARM na nagsisimula sa Cavium's ThunderX at IBM Power 8 CPU.
Sa palabas, napag-usapan ni Intel ang tungkol sa isang bagong bersyon ng kasalukuyang Xeon E5v4 (Broadwell) chip na nakatutok para sa mga lumulutang na workload ng point, at kung paano ang susunod na bersyon batay sa Skylake platform ay malapit na sa susunod na taon. Ngunit sa isang susunod na kaganapan sa linggong iyon, ang Intel ay gumawa ng isang serye ng mga anunsyo na idinisenyo upang iposisyon ang mga chips nito sa artipisyal na intelektwal o puwang sa pag-aaral ng machine. (Narito ang ExtremeTech's take.) Karamihan sa mga ito ay may mga implikasyon para sa high-performance computing, ngunit karamihan ay hiwalay. Upang magsimula sa, bilang karagdagan sa karaniwang mga processors na Xeon, ang kumpanya ay nagtataguyod din ng mga FPGA para sa paggawa ng marami sa mga inferencing sa mga neural network. Iyon ang isang malaking kadahilanan na binili ng kumpanya kamakailan sa Altera, at ang mga naturang FPGA ay ginagamit ngayon ng mga kumpanya tulad ng Microsoft.
Ngunit ang pokus sa AI noong nakaraang linggo ay nakitungo sa ilang mga mas bagong chips. Una, mayroong Xeon Phi, kung saan ipinahiwatig ng Intel na ang kasalukuyang bersyon ng Knights Landing ay pupunan sa susunod na taon na may isang bagong bersyon na tinatawag na Knights Mill, na naglalayong sa "malalim na pag-aaral" na merkado. Inihayag sa IDF, ito ay isa pang 14nm bersyon ngunit may suporta para sa mga kalkulasyon ng kalahating katumpakan, na kadalasang ginagamit sa pagsasanay sa mga neural network. Sa katunayan, ang isa sa malaking bentahe ng kasalukuyang mga chips ng Nvidia sa malalim na pag-aaral ay ang kanilang suporta para sa mga kalkulasyon ng kalahating katumpakan at mga operasyon ng 8-bit integer, na madalas na tinutukoy ni Nvidia bilang malalim na pag-aaral na "tera-ops." Sinabi ng Intel na ang Knights Mill ay maghahatid ng hanggang sa apat na beses ang pagganap ng Knights Landing para sa malalim na pag-aaral. (Ang chip na ito ay isinasalin pa sa susunod na sundin ng isang 10nm bersyon na tinatawag na Knights Hill, marahil ay naglalayong higit pa sa tradisyunal na merkado ng kompyuter na may mataas na pagganap.)
Ang pinaka-kagiliw-giliw na para sa susunod na taon ay isang disenyo mula sa Nervana, na nakuha kamakailan ng Intel, na gumagamit ng isang hanay ng mga kumpol ng pagproseso na idinisenyo upang gawin ang mga simpleng operasyon sa matematika na konektado sa memorya ng high-bandwidth (HBM). Una sa pamilyang ito ay ang Lake Crest, na idinisenyo bago binili ng Intel ang kumpanya at ginawa sa isang proseso ng TSn 28nm. Dahil sa mga bersyon ng pagsubok sa unang kalahati ng susunod na taon, sinabi ng Intel na maghahatid ito ng mas raw na pagganap sa pag-compute kaysa sa isang GPU. Sa kalaunan ay susundan ito ng Knights Crest, na kahit papaano ipinatutupad ang teknolohiya ni Nervana sa tabi ni Xeon, na may mga detalye na hindi pa ipinapahayag.
"Inaasahan namin na ang mga teknolohiya ni Nervana ay makagawa ng isang pambihirang tagumpay na 100-tiklop na pagtaas sa pagganap sa susunod na tatlong taon upang sanayin ang mga kumplikadong mga network ng neural, na nagpapagana ng mga siyentipiko ng data upang malutas ang kanilang pinakamalaking mga hamon sa AI nang mas mabilis, " sumulat ng Intel CEO Brian Krzanich.
Kamakailan din ay inanunsyo ng Intel ang mga plano na kunin si Movidius, na gumagawa ng mga maliit na chips na nakabase sa DSP partikular na angkop para sa inferencing ng paningin ng computer - muli, paggawa ng mga desisyon batay sa mga sinaunang modelo.
Ito ay isang kumplikado at umuusbong na kwento - tiyak na hindi tuwid tulad ng pagtulak ni Nvidia para sa mga GPU nito kahit saan. Ngunit kung ano ang ginagawang malinaw ay kung gaano kabilis ang pag-aaral ng makina, at ang maraming iba't ibang mga paraan na pinaplano ng mga kumpanya na matugunan ang problema, mula sa mga GPU tulad ng mga mula sa Nvidia at AMD, sa maraming mga prosesong pangunahing x86 tulad ng Xeon Phi, sa FPGAs, sa mga dalubhasang produkto para sa pagsasanay tulad ng Nervana at IBM's TrueNorth, sa mga pasadyang DSP na tulad ng inferencing engine tulad ng Google Tensor Processing Units. Ito ay magiging napaka-kagiliw-giliw na upang makita kung ang merkado ay may silid para sa lahat ng mga pamamaraang ito.