2026 AI Inference Chip War: Anthropic onderzoekt intern chipontwerp, Nvidia neemt Groq over en Giants strijden om dominantie

2026 AI Inference Chip War: Anthropic onderzoekt intern chipontwerp, Nvidia neemt Groq over

In het voorjaar van 2026 werd de AI-industrie opgeschrikt door groot nieuws: volgens Reuters onderzoekt Anthropic de mogelijkheid om zijn eigen chips te ontwerpen.Dit AI-lab, met een jaarlijkse omzet van meer dan 30 miljard dollar en een groeiende gebruikersbasis voor zijn Claude-model, overweegt serieus om te evolueren van een consument van rekenkracht naar een definieeraar ervan.

Bronnen geven toe dat de plannen zich nog in een beginstadium bevinden;het bedrijf heeft nog geen specifieke plannen afgerond of een speciaal team gevormd.Anthropic zou er uiteindelijk voor kunnen kiezen om alleen chips aan te schaffen in plaats van deze zelf te ontwerpen.Maar zelfs de mogelijkheid spreekt boekdelen.

Momenteel gebruikt Anthropic zowel TPU’s (Tensor Processing Units), ontworpen door Google’s moederbedrijf Alphabet, als de Trainium-chips van Amazon om Claude te ontwikkelen en te runnen.Deze week nog tekende het bedrijf ook een langetermijnovereenkomst met Google en Broadcom, waarbij laatstgenoemde de belangrijkste ontwerpondersteuner van Google’s TPU’s is.Door een externe aanbestedingsovereenkomst ter waarde van meerdere miljarden dollars te ondertekenen terwijl we stilletjes de interne ontwikkeling onderzoeken, lijkt deze tweeledige aanpak griezelig veel op die van Meta en Microsoft een paar jaar geleden, die beide nu hun eigen aangepaste chips hebben.

Volgens schattingen van de industrie kost het ontwerpen van een hoogwaardige AI-chip ongeveer 500 miljoen dollar, maar afgezien van de prijs is het signaal van de industrie achter de stap van Anthropic nog opmerkelijker.Wanneer een puur modelbedrijf serieus begint te overwegen om zijn eigen silicium te ontwikkelen, heeft de hardwarestrijd om AI-inferentie feitelijk een nieuw niveau van intensiteit bereikt.

Inferentie wordt het nieuwe slagveld

De afgelopen twee jaar heeft de AI-industrie een dramatische verschuiving ondergaan, waarbij de vraag naar rekenkracht snel verschoof van de trainingskant naar de gevolgtrekkingskant.

De trainingsfase, die weken of zelfs maanden kan duren, vereist grootschalige GPU-clusters voor parallel computergebruik, en de dominantie van Nvidia aan deze kant is vrijwel onwrikbaar.Maar de gevolgtrekking is anders.Inferentie is de realtime berekening die plaatsvindt telkens wanneer een model reageert op een gebruikersverzoek;het streeft een lage latentie, hoge doorvoer en een laag energieverbruik na: doelen die niet volledig aansluiten bij waar GPU's in uitblinken.

Volgens de voorspelling van Barclays zal de vraag naar inference computing in 2026 ruim 70% van de totale vraag naar AI-rekenkracht vertegenwoordigen, 4,5 keer zoveel als de vraag naar training.Er kan worden gezegd dat de echte beslissende strijd op de toekomstige AI-chipmarkt in gevolgtrekking zal plaatsvinden.

Nvidia heeft een slotgracht van tien jaar gebouwd op het gebied van training, maar als deze slotgracht niet kan worden uitgebreid tot het einde van de gevolgtrekking, zal de hele industriestructuur moeten worden herschreven.Om deze reden heeft Nvidia eind vorig jaar een formele stap gezet en een niet-exclusieve licentieovereenkomst aangekondigd met AI-inferentiechip-startup Groq.Jonathan Ross, oprichter en CEO van Groq, president Sonny Madra, en verschillende kerningenieurs kwamen vervolgens bij Nvidia terecht.Buitenlandse media citeerden insiders die zeiden dat de tegenprestatie voor deze transactie ongeveer 20 miljard dollar bedraagt.

De officiële formulering van Nvidia is voorzichtig en benadrukt dat het slechts om een technologielicentie plus de acquisitie van talent gaat, en niet om een traditionele acquisitie.Maar deze atypische acquisitiemethode is heel gebruikelijk in Silicon Valley; het kan omslachtige antitrustonderzoeken vermijden, terwijl de doeltechnologie en het kernteam substantieel in de plooi worden gebracht.

Het verhaal van Groq was oorspronkelijk behoorlijk opmerkelijk.Oprichter Ross was een kernlid van het TPU-project van Google en was zich terdege bewust van de inherente beperkingen van GPU-architectuur in gevolgtrekkingsscenario's: duizenden parallelle rekeneenheden en extreem complexe geheugenplanningslogica.Deze functies zijn voordelen bij training, maar veroorzaken onvoorspelbare latentie-jitter bij gevolgtrekkingen.

Om deze reden koos Groq voor een heel ander pad: het volledig elimineren van de planner op hardwareniveau en in plaats daarvan de compiler het stroompad van elk stukje gegevens in de codefase laten bepalen, waardoor de chip kan werken als een geautomatiseerde assemblagelijn die tot op de nanoseconde nauwkeurig is.Deze architectuur heet LPU, of Language Processing Unit.In inferentietests van reguliere grote modellen kan de snelheid van het genereren van woorden meer dan tien keer zo hoog zijn als die van Nvidia GPU's, terwijl het energieverbruik per token slechts een tiende van dat laatste bedraagt.

Met deze extreme prestaties trok Groq meer dan 1,5 miljoen ontwikkelaarsgebruikers aan en ontving het meerdere investeringsrondes van topinstellingen als Cisco, Samsung en BlackRock, met een waardering die ooit $6,9 miljard bereikte.Wat het succesvol maakte, leidde echter ook tot zijn ondergang.Het was de overdreven oogverblindende gevolgtrekking van Groq die hem in de ogen van Jensen Huang tot het belangrijkste doelwit maakte.

Oppervlakkig gezien is de overname van Groq door Nvidia een aanvulling op de technische opzet op het gebied van de gevolgtrekkingen, maar dieper is het een defensieve integratie.Door een van de sterkste externe uitdagers in zijn ecosysteem op te nemen, neemt Nvidia de onderhandelingschips weg van tweederangs cloudleveranciers en AI-softwarebedrijven die niet de mogelijkheid hebben om hun eigen chips te ontwikkelen.Zonder Groq als alternatief zijn de mogelijkheden voor degenen die niet door Nvidia willen worden "belast", plotseling kleiner geworden.

Reuzen slijpen hun zwaarden

Het kan echter zijn dat deze wanhopige situatie niet lang zal duren.

In feite hadden grote cloudreuzen al lang vóór de opkomst van Groq onafhankelijk hun eigen rekenkrachtpaden gepland.Google heeft TPU's, Amazon heeft Trainium en Microsoft heeft Maia. Alle drie de interne routes hebben nu een volwassen stadium bereikt waarin ze extern kunnen worden verkocht.

Google’s TPU van de zevende generatie, met de codenaam Ironwood, werd eind 2025 officieel uitgebracht en gelanceerd. Vergeleken met de vorige generatie zijn de prestaties op één chip ruim vier keer zo groot geworden en kan een enkel cluster tot 9.216 chips met elkaar verbinden.Google maakte geen geheim van zijn positionering voor deze generatie producten: de meest kosteneffectieve commerciële motor in het inferentietijdperk.Van de gedwongen ontwikkeling in eigen huis vanwege knelpunten in de interne rekenkracht in 2015, tot het openstellen van TPU-implementatie naar de eigen datacenters van klanten in 2025: Google heeft tien jaar besteed aan het oppoetsen van een noodproject tot een strategisch wapen.De aankondiging van Anthropic dat bij toekomstige training en inzet van de Claude-serie tot een miljoen TPU’s nodig zullen zijn, heeft de commerciële waarde van Ironwood verder door de markt erkend.

Amazon bewandelt een andere weg.AWS is lange tijd sterk afhankelijk geweest van chips die in eigen huis zijn ontwikkeld door dochteronderneming Annapurna Labs.De Trainium-serie is grofweg vergelijkbaar met Nvidia GPU's, maar richt zich op het verlagen van de kosten van cloudinfrastructuur en het verminderen van de afhankelijkheid van externe leveranciers.De recente ondertekening door AWS van een meerjarige samenwerkingsovereenkomst met Cerebras om de Wafer-Scale Engine (WSE)-chips van Cerebras te introduceren in datacenters voor parallelle inzet met zelfontwikkelde Trainium-chips is een concrete manifestatie van deze logica van het prioriteren van interne ontwikkeling en het aanvullen met externe inkoop.

Het doel van AWS is heel duidelijk: gebruik Trainium om te voldoen aan de vraag naar inferentie met lage snelheid en tegen lage kosten, en gebruik Cerebras-chips om high-end klanten binnen te halen die extreem gevoelig zijn voor latentie en bereid zijn meer te betalen voor snelheid.

Voor inferentiechips besteden ze, in tegenstelling tot trainingschips die snelheid op de korte termijn nastreven, meer aandacht aan energie-efficiëntie op de lange termijn.Een Nvidia GPU verbruikt ongeveer 700 watt, terwijl een speciale inferentiechip met gelijkwaardige rekenkracht het energieverbruik binnen 200 watt kan regelen.Voor ultragrootschalige toepassingen waarvoor honderdduizenden inferentiechips nodig zijn, kan dit gat elk jaar honderden miljoenen dollars aan kostenbesparingen opleveren.Dit is een van de belangrijkste redenen waarom cloudgiganten zoals Google, Amazon en Meta concurreren om te wedden op speciale ASIC-chips.

Volgens het laatste nieuws heeft Meta een samenwerkingsovereenkomst voor 1Gw-training en inferentiechips bereikt met Broadcom, die ongetwijfeld nieuwe katalysatoren zal brengen op de toch al "chaotische" markt voor inferentiechips.

Heterogene tijdperk: nieuwe allianties ontstaan

Als de interne R&D-routes van cloudgiganten langetermijnweddenschappen zijn met voldoende garanties op het gebied van middelen, dan vertegenwoordigt de alliantie tussen Intel en SambaNova een ander, realistischer doorbraakpad.

In 2026 kondigde SambaNova de lancering aan van een heterogene oplossing voor hardware-inferentie met Intel, waarbij een architectuur met drie lagen werd toegepast: GPU voor voorvullen, Intel Xeon 6-processor als de belangrijkste besturings- en uitvoerings-CPU, en SambaNova RDU voor decodering, speciaal ontworpen voor agent AI-workloads.Deze oplossing zal in de tweede helft van 2026 openstaan voor ondernemingen, cloudserviceproviders en soevereine AI-projecten.

SambaNova wees erop dat pure GPU-systemen goed zijn in de parallelle pre-filling-link, maar dat bij inferentietaken in productieomgevingen de toolplanning van CPU's en de decoderingsefficiëntie van speciale inferentieversnellers de belangrijkste variabelen zijn die de algehele snelheid en kosten bepalen.

Uit de testgegevens blijkt dat de LLVM-compilatiesnelheid van Intel Xeon 6-processors meer dan 50% sneller is dan die van server-CPU's op basis van Arm-architectuur, en dat de prestaties van de vectordatabase tot 70% sneller zijn.Deze twee indicatoren raken precies de belangrijkste prestatieknelpunten van de codeagent-workflow.

De rol van Intel in deze samenwerking is intrigerend.Ooit de pc-hegemon, werd het bijna gemarginaliseerd ten opzichte van het belangrijkste AI-chipslagveld in het GPU-tijdperk.Nu, met de CPU-controle en planningsvoordelen van Xeon 6, krijgt het opnieuw voet aan de grond in heterogene inferentieoplossingen.Het software-ecosysteem van het datacenter is gebaseerd op de x86-architectuur, waardoor Intel ook weer centraal staat in het AI-stadium.

Big Chips Stap in de spotlight

Cerebras is een andere naam die de moeite waard is om afzonderlijk over te schrijven.

Deze startup die zich richt op AI-chips op wafelschaal diende in 2024 een IPO-aanvraag in en trok deze vervolgens in, wat leidde tot wijdverbreide twijfels over zijn vooruitzichten op de kapitaalmarkt.Maar later tekende OpenAI een samenwerkingsovereenkomst met Cerebras ter waarde van meer dan $ 10 miljard om rekenkracht voor ChatGPT te leveren.Dit nieuws bracht Cerebras weer onder de publieke aandacht en zorgde ervoor dat de instellingen die hadden afgewacht, de technische waarde ervan opnieuw gingen onderzoeken.In februari 2026 voltooide Cerebras een nieuwe financieringsronde van $ 1 miljard, met een totale financiering van $ 2,6 miljard en een waardering na investering van ongeveer $ 23 miljard.

De kerntechnologie van Cerebras is de Wafer-Scale Engine (WSE), die een hele wafer als een enkele chip gebruikt, waardoor de fysieke snijbeperkingen van traditionele chips worden doorbroken en extreem uitstekende latentieprestaties worden geleverd bij specifieke inferentietaken.Volgens Cerebras kan de snelheid van zijn chips in de inferentiedecoderingslink tot 25 keer hoger zijn dan die van Nvidia GPU's.

De recente aankondiging van AWS van een meerjarige samenwerkingsovereenkomst met Cerebras om WSE-chips te introduceren in datacenters voor AI-inferentie markeert een belangrijke identiteitstransitie voor deze startup – van een financieringsverhaal naar een leverancier van ‘s werelds grootste cloudplatform.

De keuze van AWS voor Cerebras is gebaseerd op dezelfde logica als die van OpenAI: voor scenario's die extreem gevoelig zijn voor reactiesnelheid, zoals programmeerondersteuning en agenttaken, komt elke milliseconde latentiereductie direct overeen met gebruikerservaring en commerciële waarde – en dit is precies de zwakte van GPU’s.

Voor Cerebras zal de vraag naar snelheid alleen maar toenemen naarmate steeds meer mensen AI gebruiken om steeds moeilijkere problemen op te lossen.Als snelheid zelf de productwaarde is, dan is het betalen van een premie voor snelheid een natuurlijk commercieel gedrag.Deze logica wordt door steeds meer ondernemingen geaccepteerd.

CoreWeave: het nieuwe zwaartekrachtcentrum van de computerkrachtmarkt

Achter de strijd om rekenkracht schuilt de herstructurering van de aanbodzijde van de infrastructuur.Op dit vlak wordt de rol van CoreWeave steeds onmisbaarder.

In 2025 nam Meta het voortouw bij het ondertekenen van een leveringsovereenkomst met CoreWeave, waarin werd overeengekomen om tegen 2031 $ 14,2 miljard aan AI-rekenkracht aan te schaffen;Documenten die onlangs bij de SEC zijn ingediend, laten zien dat Meta aan de overeenkomst heeft toegevoegd en ermee heeft ingestemd om tegen 2032 nog eens 21 miljard dollar aan AI-computerkracht aan te schaffen. De toevoeging van deze nieuwe overeenkomst heeft de orderportefeuille van CoreWeave op 87,8 miljard dollar gebracht, waarvan Meta alleen al ongeveer 40% voor zijn rekening neemt.

De opkomst van CoreWeave is een microkosmos van de evolutie van GPU-rekenkracht van een schaars goed naar infrastructuur.Als huurder van pure rekenkracht biedt het geen modelmogelijkheden, maar de onderliggende ondersteuning waarmee modellen kunnen worden uitgevoerd.Naast de drie grote cloudreuzen hebben AI-bedrijven behoefte aan een rekenkrachtoptie die niet gebonden is aan een platform-ecosysteem – en CoreWeave vult deze leemte alleen maar op.

In 2025 behaalde CoreWeave een omzet van $5,13 miljard, een stijging van ongeveer 170% ten opzichte van het voorgaande jaar.De omvang van het datacenter is uitgebreid tot 43, met een in-gebruik vermogen van 850 megawatt.Het bedrijf is uitgerust met ongeveer 600.000 GPU's, voornamelijk Nvidia H100 en H200, waarbij het aandeel van de Blackwell-series voortdurend toeneemt.De gecontracteerde totale energiecapaciteit heeft 3.500 megawatt bereikt, wat meer dan vier keer de huidige in gebruik zijnde capaciteit is.

De expansielogica van CoreWeave vormt echter ook de grootste structurele druk.Om de kosten van de uitbreiding van het datacenter te dekken, heeft het bedrijf onlangs een onderhandse plaatsing van $4,75 miljard aan obligaties aangekondigd.Met minder dan 4 miljard dollar aan contanten betekent het voltooien van 30 tot 35 miljard dollar aan kapitaaluitgaven in 2026 dat het afhankelijk moet zijn van externe financiering om de snelle expansie te kunnen handhaven.De investeerders van CoreWeave gokken duidelijk op het kernoordeel dat de vraag naar rekenkracht op de lange termijn in een hoog tempo zal blijven groeien.

De chaos gaat door

Anthropic’s verkenning van intern chipontwerp, Nvidia’s overname van Groq ter waarde van 20 miljard dollar, Google’s tien jaar durende poging om van TPU een benchmarkproduct te maken, Amazon’s introductie van Cerebras in zijn eigen datacenter om een gedifferentieerde inferentieportfolio op te bouwen, en Intel’s alliantie met SambaNova om te strijden om een aandeel in de heterogene inferentiemarkt – deze ogenschijnlijk verspreide gebeurtenissen wijzen allemaal op inferentie als het nieuwe slagveld.

Steeds meer mensen realiseren zich dat de focus van AI verschuift van het trainen van betere modellen naar het afleiden van meer verzoeken tegen lagere kosten en hogere snelheid.Deze verschuiving heeft een enorme transformatie teweeggebracht in het vorige GPU-centrische rekenkrachtsysteem.

Deze competitieronde verschilt van de vroege vervanging van CPU's door GPU's.Dat was een eenrichtingsverliefdheid op nieuwe producten boven oude.De huidige strijd om inferentiechips lijkt meer op een herstructurering van de arbeidsverdeling binnen een complex ecosysteem.Geen enkele architectuur kan alle scenario's domineren, en heterogene combinaties worden mainstream.GPU's verwerken zeer parallelle voorvulling, speciale inferentiechips zorgen voor decodering, CPU's zijn verantwoordelijk voor planning en coördinatie, met verschillende focus op de cloud en edge-ends, en meerdere spelers strijden in elke link.

Dit betekent dat de uitkomst nog lang niet beslist is.

Voor Anthropic is het onderzoeken van intern chipontwerp een actief streven naar autonomie op het gebied van rekenkracht en een verzekeringspolis om te voorkomen dat het door upstream-leveranciers wordt gegijzeld.Maar de lange cyclus en de hoge investeringen in chip-R&D betekenen dat deze weg niet gemakkelijk zal zijn.Voor Nvidia is de CUDA-ecosysteemgracht nog steeds diep, maar de steeds duidelijker wordende prestatie-kostenkloof aan de kant van de gevolgtrekking wordt een gemeenschappelijk doorbraakdoel voor alle potentiële uitdagers.Voor andere technische concurrenten zoals Groq vertaalt technologisch leiderschap zich niet noodzakelijkerwijs in commercieel succes, en de kans om overgenomen te worden neemt voortdurend toe.

De strijdlijnen zijn getrokken en de lijst met deelnemers groeit nog steeds.Deze AI-gevolgtrekking op het gebied van rekenkracht is zojuist zijn meest intense hoofdstuk ingegaan.