Operatorët e specializuar të reve kompjuterike të aftë në funksionimin e GPU-ve të nxehta dhe të etur për energji dhe infrastrukturës tjetër të AI-së po shfaqen, dhe ndërsa disa nga këta lojtarë si CoreWeave, Lambda ose Voltage Park – kanë ndërtuar grupimet e tyre duke përdorur dhjetëra mijëra GPU Nvidia, të tjerët po kthehen në AMD në vend të kësaj.
Një shembull i kësaj të fundit është bit barn startup TensorWave e cila në fillim të këtij muaji filloi grumbullimin e sistemeve të mundësuar nga Instinct MI300X i AMD, i cili planifikon të marrë me qira çipat me një fraksion të kostos së ngarkuar për të hyrë në përshpejtuesit Nvidia.
Bashkëthemeluesi i TensorWave Jeff Tatarchuk beson se përshpejtuesit e fundit të AMD kanë shumë cilësi të shkëlqyera. Si fillim, ju mund t’i blini ato. TensorWave ka siguruar një shpërndarje të madhe të pjesëve.
Deri në fund të vitit 2024, TensorWave synon të ketë 20,000 përshpejtues MI300X të vendosur në dy objekte dhe planifikon të sjellë sisteme shtesë të ftohjes me lëng në internet vitin e ardhshëm.
Silikoni më i fundit i AI i AMD është gjithashtu më i shpejtë se H100 shumë i lakmuar i Nvidia. “Vetëm në specifikat e papërpunuara, MI300x dominon H100,” tha Tatarchuk.
I lançuar në eventin Advancing AI të AMD në dhjetor, MI300X është përshpejtuesi më i avancuar i firmës së dizajnit të çipave deri më tani. Çipi 750W përdor një kombinim paketimi të avancuar për të bashkuar 12 chiplet – 20 nëse numëroni modulet HBM3 – në një GPU të vetme që pretendohet të jetë 32 përqind më e shpejtë se H100 e Nvidia.
Përveç performancës më të lartë të pikës lundruese, çipi gjithashtu krenohet me një memorie më të madhe 192 GB HBM3 të aftë për të ofruar 5.3 TB/s gjerësi bande kundrejt 80 GB dhe 3.35 TB/s të pretenduara nga H100.
Siç e kemi parë nga H200 e Nvidia – një version i H100 i përforcuar nga përfshirja e HBM3e – gjerësia e brezit të memories është një kontribues i madh në performancën e AI, veçanërisht në nxjerrjen e konkluzioneve në modelet e mëdha të gjuhëve.
Ashtu si modelet HGX të Nvidia dhe OAM të Intel, konfigurimet standarde të GPU-së më të fundit të AMD kërkojnë tetë përshpejtues për nyje.
Ky është konfigurimi që njerëzit në TensorWave janë të zënë me grumbullimin dhe grumbullimin.
“Ne kemi qindra që hyjnë tani dhe mijëra do të hyjnë në muajt në vijim,” tha Tatarchuk.
Duke i grumbulluar ato
Në një foto postuar në mediat sociale, ekuipazhi i TensorWave tregoi atë që dukej të ishin tre sisteme 8U Supermicro AS-8125GS-TNMR2 të grumbulluara. Kjo na bëri të pyesim nëse raftet e TensorWave ishin me fuqi apo termikisht të kufizuara në fund të fundit, nuk është e pazakontë që këto sisteme të tërheqin më shumë se 10 kW kur ngarkohen plotësisht.
Rezulton se njerëzit në TensorWave nuk e kishin përfunduar instalimin e makinave dhe se firma po synon katër nyje me një kapacitet total prej rreth 40 kW për raft. Këto sisteme do të ftohen duke përdorur shkëmbyesit e nxehtësisë së derës së pasme (RDHx). Siç kemi diskutuar në të kaluarën, këta janë radiatorë me madhësi rafti përmes të cilëve rrjedh ujë i ftohtë. Ndërsa ajri i nxehtë del nga një server konvencional, ai kalon përmes radiatorit i cili e fton atë në nivele të pranueshme.
Kjo teknologji e ftohjes është bërë një mall i nxehtë midis operatorëve të qendrave të të dhënave që kërkojnë të mbështesin grupe më të dendura GPU dhe çoi në disa sfida të zinxhirit të furnizimit, tha shefi i TensorWave, Piotr Tomasik.
“Ka shumë çështje të kapacitetit, madje edhe në pajisjet ndihmëse rreth qendrave të të dhënave tani,” tha ai, duke iu referuar veçanërisht RDHx si një pikë dhimbjeje. “Ne kemi qenë të suksesshëm deri më tani dhe ne ishim shumë të mirë për aftësinë tonë për t’i vendosur ato.”
Megjithatë, afatgjatë, TensorWave synon ftohjen direkt në çip, e cila mund të jetë e vështirë të vendoset në qendrat e të dhënave që nuk janë krijuar për të vendosur GPU, tha Tomasik. “Ne jemi të ngazëllyer për vendosjen e drejtpërdrejtë në ftohjen e çipave në gjysmën e dytë të vitit. Ne mendojmë se kjo do të jetë shumë më e mirë dhe më e lehtë me densitet.”
Ankthi i performancës
Një sfidë tjetër është besimi në performancën e AMD. Sipas Tatarchuk, ndërsa ka shumë entuziazëm rreth AMD që ofron një alternativë ndaj Nvidia, klientët nuk janë të sigurt se do të shijojnë të njëjtën performancë. “Ka gjithashtu shumë “Ne nuk jemi 100 për qind të sigurt nëse do të jetë aq i mirë sa ai që jemi mësuar aktualisht në Nvidia”, tha ai.
Në interes të ngritjes dhe funksionimit të sistemeve sa më shpejt të jetë e mundur, TensorWave do të nisë nyjet e tij MI300X duke përdorur RDMA mbi Ethernetin e konverguar (RoCE). Këto sisteme metalike të zhveshura do të jenë të disponueshme për periudha fikse qiraje, me sa duket për aq pak sa $1/orë/GPU.
Përshkallëzimi
Me kalimin e kohës, veshja synon të prezantojë një shtresë orkestrimi më të ngjashme me renë për sigurimin e burimeve. Zbatimi i teknologjisë FabreX të bazuar në PCIe 5.0 të GigaIO për të bashkuar deri në 5750 GPU në një domen të vetëm me më shumë se një petabajt memorie me gjerësi bande të lartë është gjithashtu në axhendë.
Këto të ashtuquajtura TensorNODE bazohen në arkitekturën SuperNODE të GigaIO që ajo shfaqi vitin e kaluar, e cila përdori një palë pajisje ndërprerëse PCIe për të lidhur së bashku deri në 32 GPU MI210 AMD. Në teori, kjo duhet të lejojë që një nyje e vetme e kokës së CPU të adresojë shumë më tepër se tetë përshpejtuesit që shihen zakonisht në nyjet GPU sot.
Kjo qasje ndryshon nga dizajni i preferuar i Nvidia, i cili përdor NVLink për të bashkuar superçipa të shumtë në një GPU të madhe. Ndërsa NVLink është dukshëm më i shpejtë në 1.8 TB/s të gjerësisë së brezit në përsëritjen e tij të fundit krahasuar me vetëm 128 GB/s në PCIe 5.0, ai mbështet vetëm konfigurime deri në 576 GPU.
TensorWave do të financojë ndërtimin e tij bit barn duke përdorur GPU-të e tij si kolateral për një raund të madh financimi të borxhit, një qasje e përdorur nga operatorë të tjerë të qendrës së të dhënave. Vetëm javën e kaluar, Lambda zbuloi se kishte siguruar një hua prej 500 milionë dollarësh për të financuar vendosjen e “dhjetëra mijëra” përshpejtuesve më të shpejtë të Nvidia.
Ndërkohë, CoreWeave, një nga ofruesit më të mëdhenj të GPU-ve me qira, ishte në gjendje të siguronte një kredi masive prej 2.3 miliardë dollarësh për të zgjeruar gjurmën e saj të qendrës së të dhënave.
“Ju, duhet të prisni që ne të kemi të njëjtin lloj njoftimi këtu më vonë këtë vit,” tha Tomasik. ®