Tekuće hlađenje povećava performanse i učinkovitost Nvidijine Blackwell platforme
Oct 14, 2024
Ostavite poruku
Brzi rast umjetne inteligencije (AI), posebno u područjima kao što su Generative AI (GenAI) i veliki jezični modeli (LLM), potaknuo je neviđenu potražnju za računalnom snagom. Kako modeli umjetne inteligencije postaju sve složeniji i zahtijevaju više podataka, hardver potreban za podršku ovim napretcima suočava se sa značajnim izazovima, osobito s odvođenjem topline. Tradicionalne metode hlađenja, poput zračnog hlađenja, više nisu dovoljne za upravljanje potrošnjom energije vrhunskog hardvera s umjetnom inteligencijom i tu na scenu stupaju rješenja za tekuće hlađenje.
Tehnologija tekućeg hlađenja postala je istaknuta kao vrlo učinkovit način upravljanja toplinskom izlaznom snagom AI podatkovnih centara. Posebno je ključno za platforme poput Nvidijine Blackwell arhitekture, gdje ogromna računalna snaga zahtijeva napredne sustave hlađenja kako bi se osigurale performanse i dugovječnost.
naVrući čip 2024konferenciji, Nvidia je predstavila svoje inovativno rješenje, integrirajućitoplovodno hlađenje tekućinom izravno na čiptehnologija sa svojom Blackwell arhitekturom za rješavanje sve veće potrošnje energije i izazova hlađenja. Ovaj razvoj označava ključni napredak u dizajnu AI hardvera, smanjujući operativne troškove i poboljšavajući učinkovitost u velikim AI aplikacijama.

▲ Vodič za vruće čipove: Hlađenje tekućinom povećava performanse i učinkovitost
Uspon tehnologije hlađenja tekućinom
Tehnologija hlađenja tekućinom pojavljuje se kao kritična komponenta u dizajnu podatkovnih centara s umjetnom inteligencijom zbog sve većih zahtjeva za napajanjem čipova s umjetnom inteligencijom. Kako AI aplikacije rastu, očekuje se da će potrošnja energije u podatkovnim centrima drastično rasti. Mnogi AI procesori, uključujući Nvidijin H100 i njegov noviBlackwell arhitektura, troše od 700 W do 1200 W snage. Ovo golemo trošenje energije nastaje kada klasteri umjetne inteligencije, koji se sastoje od tisuća GPU-ova, rade usklađeno.
Na primjer,Klaster za obuku AI Elona Muska, najveći na svijetu sa 100000 H100 GPU-ova, u potpunosti je hlađen tekućinom kako bi zadovoljio svoju potražnju za energijom od 31-megavata. Takvi primjeri pokazuju zašto je optimizacija tehnologije hlađenja kritična - ne samo za smanjenje operativnih troškova, već i za poboljšanje ukupne izvedbe sustava umjetne inteligencije. Kako potreba za umjetnom inteligencijom viših performansi nastavlja rasti, tekuće hlađenje će igrati sve središnju ulogu u održavanju računalnih sustava visokih performansi.
Prednosti hlađenja tekućinom u podatkovnim centrima umjetne inteligencije
Hlađenje tekućinom ističe se svojom sposobnošću izravnog prijenosa topline s kritičnih komponenti poput CPU-a i GPU-a, poboljšavajući disipaciju topline u usporedbi s tradicionalnim zračnim hlađenjem. UIzravno hlađenje tekućinom (DLC), rashladna tekućina dolazi u izravan kontakt s čipom, povećavajući toplinsku učinkovitost i smanjujući potrebu za glomaznim ventilatorima i klimatizacijskim sustavima. To rezultira manjom potrošnjom energije za hlađenje, čime se smanjuju ukupni operativni troškovi podatkovnog centra.
Nadalje,Imerzijsko hlađenje tekućinom, gdje su cijeli poslužitelji uronjeni u dielektričnu tekućinu, predstavlja još učinkovitije rješenje za hlađenje. Ova metoda ne samo da osigurava da sve komponente ostanu hladne, već i smanjuje mehaničko trošenje, što produljuje životni vijek hardvera i značajno smanjuje buku od opreme koja se kreće zrakom.
Izazovi potrošnje energije u AI hardveru
Kako se AI sustavi povećavaju, njihova potrošnja energije predstavlja sve veći izazov. AI hardver, kao što jeNvidia H100 GPUiBlackwell arhitektura, poznato je da su gladni energije, a zahtjevi za napajanjem dosežu i do 1200 W po čipu. Tipični AI klaster koji sadrži 22 000 H100 GPU-a, na primjer, može zahtijevati do31 megavata električne energije-ekvivalent potrošnji energije malog grada.
Ova ogromna potražnja za energijom ne samo da povećava operativne troškove podatkovnih centara, već također pridonosi značajnom utjecaju na okoliš. Kako bi odgovorili na te izazove, podatkovni centri moraju se usredotočiti i na smanjenje potrošnje energije i na poboljšanje učinkovitosti hlađenja.
Nvidijina arhitektura Blackwell i hlađenje toplom vodom izravno u čip
naHochip 2024 konferencija, Nvidia je predstavila svoje rješenje za integraciju tekućeg hlađenja sa svojom Blackwell arhitekturom, koristećiTehnologija hlađenja toplom vodom Direct to Chip. Ovaj pristup koristi toplu vodu (za razliku od ohlađene vode) za apsorpciju i prijenos topline izravno s čipa. Upotrebom hlađenja toplom vodom, Nvidia može smanjiti potrošnju energije za hlađenje podatkovnih centara do 28%.
Učinkovitost ovog rješenja je dvostruka: ono ne samo da smanjuje ukupnu potrošnju energije za hlađenje, već također omogućuje povrat otpadne topline, koja se može prenamijeniti za druge svrhe, kao što je grijanje obližnjih zgrada. Dodatno, hlađenje toplom vodom produljuje radni vijek poslužitelja održavajući čipove unutar optimalnih temperaturnih raspona, sprječavajući pregrijavanje i smanjujući habanje.

▲Topla voda Izravna otopina za hlađenje čipova
Ova tehnika hlađenja posebno je važna budući da AI aplikacije poput GenAI i LLM-a nastavljaju povećavati računalnu snagu potrebnu u podatkovnim centrima. Sposobnost održavanja optimalnih temperatura izravno utječe na izvedbu i skalabilnost radnih opterećenja umjetne inteligencije, osiguravajući da ovi sustavi mogu podnijeti intenzivne zahtjeve koji im se postavljaju.
Imerzijsko hlađenje tekućinom: korak dalje
Uz izravno hlađenje tekućinom,Imerzijsko hlađenje tekućinomtakođer dobiva na snazi kao rješenje sljedeće razine za velike AI sustave. Ova metoda uranja cijele poslužitelje u nevodljivu, dielektričnu tekućinu, koja u potpunosti apsorbira i raspršuje toplinu sa svih komponenti. Hlađenjem cijelog sustava na ovaj način, Immersion Liquid Cooling nudi sljedeće prednosti:
- Poboljšana učinkovitost hlađenja: Okruživanjem svih komponenti rashladnom tekućinom, ova metoda omogućuje ravnomjerno i učinkovito uklanjanje topline.
- Niži troškovi održavanja: Bez pokretnih dijelova kao što su ventilatori, manje je mehaničko trošenje, što smanjuje troškove održavanja i produljuje vijek trajanja opreme.
- Poboljšana energetska učinkovitost: Potopno hlađenje može dramatično smanjiti potrošnju energije jer eliminira potrebu za klimatizacijskim sustavima i drugim komponentama aktivnog hlađenja.

▲Imerzivni sustav hlađenja tekućinom
Štoviše,Imerzijsko hlađenje tekućinomvrlo je skalabilan, što ga čini idealnim za podatkovne centre koji se bave radnim opterećenjima umjetne inteligencije koja generiraju značajne količine topline, poput onih koje pokreće Nvidijina Blackwell arhitektura. Budući da veći modeli umjetne inteligencije postaju sve rašireniji, hlađenje uranjanjem moglo bi postati idealno rješenje za podatkovne centre koji žele povećati svoje operacije uz smanjenje troškova energije i utjecaja na okoliš.
Ulaganje Silicijske doline u rashladne tehnologije
Rastuća potražnja za učinkovitijim rješenjima hlađenja u podatkovnim centrima umjetne inteligencije privukla je pozornost tvrtki rizičnog kapitala, posebno uSilicijska dolina. Te tvrtke aktivno ulažu u startupe koji su specijalizirani zahlađenje tekućinomtehnologije, prepoznajući da su inovacije u ovom području ključne za budućnost AI hardvera.
Startupi u razvojunapredna rješenja za hlađenjene samo da pružaju neposredne prednosti za trenutnu generaciju AI sustava, već i postavljaju temelje za sljedeći val AI hardvera, koji će vjerojatno zahtijevati još sofisticiranije metode hlađenja. Ove tehnologije trebaju odgovoriti i na zahtjeve za visokom snagom i na toplinske izazove AI sustava, čineći ih atraktivnim ulaganjem za one koji žele pomaknuti granice onoga što je moguće u računalstvu visokih performansi.

▲ Trendovi ulaganja u podatkovni centar AI
Zaključak
Kako se AI hardver nastavlja razvijati, potražnja za inovativnim tehnologijama hlađenja raste. NvidijinBlackwell arhitekturaje na čelu ove promjene, koristećitopla voda Izravno na čiphlađenje za povećanje učinkovitosti i smanjenje operativnih troškova.Hlađenje tekućinom, bilo kroz izravni kontakt ili metode uranjanja, pokazuje se kao najučinkovitiji način za upravljanje ogromnom potrošnjom energije i izlazom topline modernih AI sustava.
Tvrtke rizičnog kapitala primjećuju se, a mnoge ulažu u startupe koji mogu ponuditi rješenja za hlađenje sljedeće generacije. Kako podatkovni centri umjetne inteligencije postaju sve veći i složeniji, važnost učinkovitih i skalabilnih sustava hlađenja samo će rasti, čineći hlađenje tekućinom kamenom temeljcem buduće računalne infrastrukture visokih performansi.
