Skriv ut

Amerikanska AMD lanserar tre familjer grafikprocessorer med stöd för AI-tekniken deep learning, en nisch som hittills helt dominerats av konkurrenten Nvidia. Instinct är det gemensamma namnet på de tre familjerna.

Processorer, kort och rackmoduler ska finnas i volym under 2017.

Nvidia skär idag guld med täljkniv ur den exploderande marknaden för AI-tekniken deep learning.  Företagets börsvärde har dubblerats under de senaste 12 månaderna.

De tunga beräkningarna i AI-tekniken deep learning utförs idag huvudsakligen i Nvidia-grafikkort, som i sina senaste generationer till och med är direkt optimerade för detta. Även hos företag som Google, Microsoft och Intel, som experimenterar med egna hårdvarulösningar, dominerar fortfarande Nvidia.

Ett de factomoonopol av det här slaget är inte bra för priserna ur kundernas perspektiv och nu kommer äntligen AMD till undsättning.

Rackmodulen Inventec PS1816 Falconwitch innehåller bland annat 16 stycken MI25-kort och ska därmed ha en prestanda på 400 teraflops. Inventec jobbar på att ta fram ett 32U-rack med en prestanda på fyra petaflops. Som jämförelse levererade världens snabbaste superdator 4,7 petaflops i november 2010, i rättvisans namn dock i ett annat benchmark och i 64-bitars-precision och inte som här 16 bitar.

Företaget lanserar grafikkortsfamiljerna MI6, MI8 och MI25, som svar på Nvidias kort P4, P40 och P100.

De tre använder i tur och ordning mikroarkitekturerna Polaris 10, Fiji och Vega. Att AMD:s första Vega-processor är AI-optimerad demonstrerar att AMD tar deep learning på allvar.

Siffrorna i namnen är uppenbarligen valda efter deras ungefärliga prestanda i teraflops, som är 5,7, 8,2 respektive 25. De två första gäller 32-bitars flyttal och den sista 16-bitars flyttal som MI25 är den enda av dem som direkt stöder.

Deep learning tros klara sig utmärkt med lägre precision och prestandavinsten i direktstödet är logiskt nog en dubblering. I 32 bitar levererar MI25 bara 12,5 teraflops.

MI25 är avsedd för den beräkningsintensiva engångsuppgiften att utbilda djupa neuronnät, exempelvis för att översätta mellan två språk. Eller för att lära sig känna igen bilder av katter. Träningsprocessen kan ta veckor. 

MI6 och MI8 är optimerade för inferens, det vill säga för att ställa frågor till färdigtränade nät, exempelvis vad som är en lämplig översättning av en mening från ett språk till ett annat, eller om det finns en katt i en given bild. Detta tar bråkdelar av sekunder.  MI6 och MI8 är exempelvis intressant i servermoln som hanterar stora volymer av sådana förfrågningar parallellt.

AMD redovisar testresultat för Baidus deep learning-prestandatest Deepbench och AMD slår enkelt Nvidia på fingrarna. Men det är en bra idé att avvakta till dess att korten släppts och oberoende AI-labben fått sätta tänderna i dem. 

Mjukvaran är viktig för vilka resultat användarna kommer att uppnå i praktiken. Korten stöder vanliga deep learning-programbibliotek som Caffee och Tensorflow. Dessutom har AMD tagit fram ett eget bibliotek kallat MI Open som till skillnad från Nvidias cuDNN är öppen källkod. 

MI25 drar upp till 300 watt, och är passivt kyld. MI6 och MI8 använder upp till 150 respektive 175 watt.

Minnesbandbredden för MI25 är inte känd. Det är en viktig parameter eftersom korten tuggar gigantiska datavolymer under träningen.

MI6 och MI8 tillverkas i 14 respektive 28 nanometer av Global Foundries respektive TSMC. AMD har inte avslöjat i vilken process MI25 blir till.