Skriv ut

Nya detaljer om Qualcomms serverprocessor – kanske mest känd för att vara före Intel till 10 nm – presenterades på konferensen Hot Chips under veckan.

Den var tidigare känd som ”Amberwing” men har nu fått det officiella produktnamnet Centriq 2400. 

Centriq 2400 finns i prover hos kunder och kommer att släppas i volym under sista kvartalet.

Den innehåller inte mindre än 24 ARM-dubbelkärnor i en 64-bitars mikroarkitektur, kallad Falkor, alltså summa 48 cpu:er.

Det tänkta tillämpningsområdet är molnservrar, särskilt appar som mestadels kan hålla sig inom cacheminnet.

Centriq är optimerad för att vara effektsnål vilket är en klassisk nisch för ARM-processorer. Sådana sitter främst i mobiltelefoner och sådana behöver kunna snåla med batterier.

För ändamålet har den diverse olika vilolägen för cpu, register och cache. Dessutom kan den variera både klockfrekvens och spänning, ofta lokalt.

Den har en klockfrekvens på minst 2 GHz, och ovanpå detta har den turboboost.

Falkor och multikärnan är konstruerad av Qualcomm. Chefsarkitekt är Thomas Speier, som jobbat med Qualcomms mobiltelefonprocessor Snapdragon sedan dess start, och tidigare med PowerPC på IBM.

Andra tunga namn i teamet är Dileep Bhandarkar, med serverbakgrund på både DEC, SGI/MIPS, Intel och Microsoft, och Barry Woolford, chefsarkitekt på QDT och med bakgrund på Big Blue.

Ett annat intressant namn är Anand Chandrasekhar. Han jobbade tidigare på Intel med att få in Intels Atom-processorer i mobiltelefoner. 

Arm och Intel slåss om att ta sig in på varandras territorer – mobilt och server-pc. Anand Chandrasekhar har alltså bytt sida i den kampen. 

Centriq är en skalbar arkitktur, och kan komma att släppas med andra antal kärnor.

55 x 55 millimeter mäter Centriq 2400.

Falkor har hårdvarustöd för virtualisering. Däremot saknar de SMT och har ingen bakåtkompatibilitet med 32-bitars-ARM. 

Det bidrar till att ge Centriq plats för så många kärnor som den har.

Dubbelkärnorna delar L2 cache. L3-cache är gemensamt för hela chipet, men den är också partitionerbar.

Två ringnät binder samman dubbelkärnorna, med trafik i varsin riktning. Protokollet kallas Qualcomm System Bus och ger både cachekoherens och IO-koherens. 

Den aggregerade bandbredden är 250 Gbyte/s. DDR4-minnet komprimeras när det är möjligt, vilket höjer den faktiska bandbredden mot minnet.

Smart nog väljs inte ring för ett paket enbart efter avstånd, utan också efter vilken av ringarna som är mest trafikerad för tillfället. En annan rationalisering är att om två noder frågar efter samma minne, skickas det i ett och samma paket. 

Falkor har ett L1-cache som ser ut som 88 kbyte, men i själva verket består av ett 24 kbyte ”L0”-cache som på ett intrikat sätt samarbetar med ett 64 kbyte L1-cache och enligt Qualcomm ger L1-cache en prestanda som om det var dubbelt så stort.

Processorn kör inte bara Linux. Microsoft har tagit fram en Windows-version som företaget testar i sin egen molntjänst Azure.

Nextplatform har skrivit en lång presentation av Centric och fördjupar sig bland annat en hel del i cacheminnet.