Video: Part 1- Distributed High Performance Computing - Micro-services Architecture - Concepts (Nobyembre 2024)
Sa mga nagdaang taon nakita namin ang ilang mga kagiliw-giliw na mga bagong diskarte sa mataas na pagganap ng computing, sa partikular na isang paglilipat palayo sa tradisyonal na mga malalaking processors at patungo sa mga kumpol ng x86 na mga CPU na may mga accelerator o coprocessors upang mapabilis ang mga partikular na uri ng pagkalkula. Palabas ng Supercomputing show ng nakaraang linggo, nakita namin ang Intel na nagtutulak upang isama ang Xeon Phi coprocessor kasama ang tradisyonal na Xeon server processor upang gawing mas madali ang programming; Ipinakilala ng Nvidia ang isang bagong bersyon ng kanyang acclailer ng Tesla GPU; at ang pagsuporta sa Micron ng ibang kakaibang uri ng processor para sa higit pang dalubhasang computing. At ang lahat ng ito ay nangyayari sa isang oras na ang mga accelerator at coprocessors ay darating upang mangibabaw sa Nangungunang 500 na listahan ng mga pinakamabilis na computer sa mundo, na humahantong sa ilang mga eksperto na iminumungkahi ang umiiral na mga benchmark ay nagbibigay ng labis na timbang sa mga prosesor na ito.
Nvidia ay touting tagumpay nito sa kanyang Tesla accelerator boards, malaking kumpol ng GPUs na konektado sa pangunahing mga processors mula sa alinman sa Intel o AMD. Ang nasabing mga chips ay ginagamit sa isang malawak na iba't ibang mga sistema, kabilang ang Titan system sa Oak Ridge National Laboratory at ang bagong sistema ng Piz Daint sa Swiss National Supercomputing Computing Center. Higit pang kawili-wili, sinabi ng kumpanya na ang mga board ng Tesla ay nasa lahat ng nangungunang 10 mga sistema sa pinakabagong listahan ng Green Green na pinaka-mahusay na enerhiya ng buong mundo. Ang lahat ng mga sistemang ito ay gumagamit din ng Intel Xeons maliban sa AMD Opteron na nakabase sa Titan, na siyang pangalawang pinakamabilis na sistema sa mundo sa Nangungunang 500 ngunit mas mababa ang ranggo sa listahan ng Green 500.
Bilang karagdagan, inihayag ni Nvidia ang isang pakikipagtulungan sa IBM upang mag-alok ng mga accelerator ng Tesla sa mga system batay sa arkitektura ng IBM Power. Ang IBM ay matagal nang nai-tout ang serial performance nito, at ang BlueGene / Q system nito batay sa Power processors ay nagpapatakbo ng Sequoia system sa Lawrence Livermore National Laboratory at ang Mira system sa Argonne National Laboratory. Ang pagkakaroon ng IBM at Nvidia na nagtutulungan ay dapat magresulta sa ilang mga kagiliw-giliw na mga sistema sa hinaharap.
Sa palabas, inihayag ng kumpanya ang Tesla K40, ang susunod na henerasyon ng GPU accelerator board. Sinabi ng kumpanya na mag-aalok ito ng 1.4 teraflops ng pagganap ng dobleng katumpakan, 12GB ng memorya (288GBps bandwidth), at isang tampok na GPU Boost, na pinapayagan itong tumakbo sa isang mas mabilis na bilis ng orasan sa ilang mga sitwasyon. Ito ay isang pag-upgrade mula sa umiiral na serye ng Tesla K20, gamit ang parehong pangunahing disenyo ng GPU na ginawa sa 28nm na teknolohiya.
Ang iba pang mga inisyatibo ay kinabibilangan ng mga paraan ng pagpapadali ng pag-programming ng GPU, kabilang ang CUDA 6, na sumusuporta ngayon sa pinag-isang memorya, na hinahayaan ang mga developer na lapitan ang memorya bilang isang solong pool, kahit na ang CPU at GPU memory ay mananatiling magkahiwalay. Sinusuportahan din ng kumpanya ang OpenACC, isang karaniwang koleksyon ng mga tagubilin ng tagatala na nagsasabi sa system kung aling mga bahagi ng programa (nakasulat sa C / C ++ at Fortran) ay maaaring mai-load mula sa CPU sa isang accelerator upang mapalakas ang pagganap.
Ang diskarte ng Intel, na tinawag nitong arkitektura ng Maraming Integrated Core (MIC), ay ibang-iba. Pinagsasama nito ang maraming maliit na mga x86 na mga core sa isang solong chip na tinatawag na Xeon Phi. Sa loob ng nakaraang mga taon, ang Intel ay na-touting ang katotohanan na ito ay ang lahat ng mga x86 habang ginagawang mas madali itong iprograma, kahit na malinaw na ang mga developer ay dapat na direktang target ang arkitektura. Ang kasalukuyang bersyon ng Xeon Phi, na tinatawag na Knights Corner, ay idinisenyo upang magamit bilang isang accelerator kasama ang higit pang tradisyonal na Xeon E server chips, at ginagamit ng iba't ibang mga nangungunang sistema, kabilang ang Tianhe-2 ng China (kasalukuyang pinakamabilis na sistema sa mundo) at ang sistema ng Stampede sa Advanced Computing Center sa University of Texas.
Sa palabas, inihayag ng Intel ang isang bagong bersyon na na-codenamed Knights Landing, na magpapatakbo din bilang isang standalone CPU na maaaring magkasya sa isang standard na arkitektura ng rack at patakbuhin ang operating system nang direkta, nang hindi nangangailangan ng isang host CPU (tulad ng Xeon E). Maaaring maging mahalaga ito sa pagpapalawak ng apela ng Xeon Phi, lalo na sa merkado ng workstation. Muli, ito ay dinisenyo upang gawing mas madali para sa mga developer ng software na tingnan ito bilang isang solong CPU. Magagamit ang Knights Landing kapwa bilang isang standalone CPU at bilang isang PCI Express board na umaangkop sa umiiral na mga system bilang isang pag-upgrade mula sa Knights Corner.
Mayroong iba pang mga makabuluhang pagbabago sa Knights Landing pati na rin, kasama ang pagdaragdag ng "malapit sa memorya, " epektibong DRAM na inaalok sa package kasama ang CPU at sa gayon ay maaaring maghatid ng isang mas mataas na bandwidth kaysa sa tradisyunal na memorya ng DDR, na kung saan ay limitado sa bilis ng ang bus. (Mas mabilis din ito, ngunit hindi halos marami.) Hindi ito ang unang paglipat sa direksyon na ito; Ang IBM ay naka-embed na naka-embed na DRAM sa arkitektura ng Power para sa mga taon at ang Intel mismo ay naglalagay ng naka-embed na DRAM para sa mga graphic sa mga bersyon ng Iris Pro ng pamilya nitong Haswell Core. Gayunpaman, ang aking hulaan ay makikita namin ang maraming higit pang mga pagsisikap sa direksyon na ito sa mga susunod pang taon.
Samantala, ang isa sa mga pinaka-kagiliw-giliw na mga bagong diskarte ay nagmula sa Micron, na inihayag ng isang bagong accelerator na tinawag na isang Proseso ng Automata na dinisenyo na karamihan upang harapin ang mga komplikadong problema sa data.
Inilarawan ito ng Micron bilang pag-aalok ng isang tela na binubuo ng sampu-sampung libo hanggang milyon-milyong mga elemento ng pagproseso na konektado upang malutas ang mga tiyak na gawain. Ang kumpanya, isa sa pinakamalaking gumagawa ng memorya ng DRAM at NAND, ay nagsasabing gagamitin nito ang pagproseso batay sa memorya upang malutas ang mga kumplikadong hamon sa computing sa mga lugar tulad ng seguridad sa network, bioinformatics, pagproseso ng imahe, at analytics. Una ay ipamamahagi ng Micron ang Proseso ng Automata sa isang board ng PCI-Express upang makakuha ng mga tagabuo na nagtatrabaho kasama nito, ngunit plano ng kumpanya na ibenta ang mga processors sa mga karaniwang mga module ng memorya, na kilala bilang DIMM, o bilang mga indibidwal na chips para sa mga naka-embed na system. Sa ilang mga paraan, ang tunog na ito ay katulad ng mga pag-iring ng gate na maiprograma ng patlang (FPGA), na nakatutok upang malutas ang mga partikular na application na kinasasangkutan ng pagtutugma ng pattern.
Sinabi ng kumpanya na ito ay nagtatrabaho sa Georgia Tech, University of Missouri, at University of Virginia upang bumuo ng mga bagong aplikasyon para sa Automata. Kahit na ang kumpanya ay hindi inihayag ng isang petsa para sa mga pangwakas na produkto, ang isang software development kit ay nakatakda na lumabas sa susunod na taon, kasama ang mga tool sa kunwa.
Ang automata ay tunog tulad ng isang trabaho sa pag-unlad at marahil masyadong maaga upang malaman kung gaano kalawak ang mga aplikasyon, ngunit ito ay isang kawili-wiling diskarte.
Sa pangkalahatan, nakikita namin ang ebolusyon ng high-performance computing. Hindi masyadong maraming taon na ang nakalilipas, ang pinakamabilis na mga computer ay halos lahat ng mga bilang ng mga karaniwang processors server. Sa katunayan ang mga sistema ng IBM Blue Gene at ang mga batay sa Sparc (tulad ng K computer sa RIKEN Advanced Institute for Computational Science sa Japan, na gumagamit ng Fujitsu Sparc processors) ay may account pa rin sa isang malaking bahagi ng merkado, kabilang ang lima sa 10 pinakamabilis mga sistema sa mundo. Ngunit sa mga nagdaang taon, ang momentum ay lumipat patungo sa coprocessor, na may mga system gamit ang Tesla at mas kamakailan lamang na ang mga accelerator ng Xeon Phi na higit pa sa mga mas bagong sistema. Sa mga pagpapabuti sa mga system, mga bagong pakikipagsosyo, mas mahusay na software at ilang mga bagong diskarte, ang supercomputing market ay maaaring ibang-iba sa hinaharap.