HuisNieuwsAI-geoptimaliseerde opslagarchitectuur

AI-geoptimaliseerde opslagarchitectuur

Een opslaginfrastructuur van de volgende generatie, ontworpen om AI-systemen te helpen met het omgaan met enorm contextgeheugen en multi-turn redenering, zal de manier waarop grootschalige inferentie-workloads worden ondersteund, opnieuw vormgeven.



Er is een nieuwe klasse van AI-georiënteerde opslagtechnologie van NVIDIA ontstaan ​​die een van de lastigste uitdagingen in moderne AI-workloads aanpakt: het efficiënt beheren en delen van grote hoeveelheden contextgegevens tijdens inferentie.Traditionele opslag- en geheugenhiërarchieën die zijn gebouwd voor generieke rekenkracht in plaats van voor de specifieke behoeften van AI, hebben moeite om gelijke tred te houden terwijl modellen uitgroeien tot multi-agent, multi-turn redeneersystemen die persistent contextgeheugen met grote capaciteit vereisen.

De kern van de ontwikkeling is een gespecialiseerde dataprocessor die de nieuw aangekondigde AI-native opslagarchitectuur ondersteunt, die het GPU-geheugen uitbreidt en de key-value (KV) inferentiecache deelt over clusters met hoge bandbreedte en voorspelbare latentie.Deze verandering wordt veroorzaakt door de transitie van AI van verwerking met één prompt naar continu redeneren in een lange context, waarbij een groot gedeeld geheugen essentieel is voor reactievermogen en nauwkeurigheid.

De belangrijkste kenmerken zijn:

Breidt het GPU-geheugen uit met sleutelwaarde-cachecapaciteit op clusterschaal voor inferentie over lange contexten.
Tot 5x hogere tokens-per-seconde doorvoer vergeleken met traditionele opslag.
Hardwareversnelde KV-cacheplaatsing vermindert overhead van metagegevens en gegevensbeweging.
Efficiënt delen van context tussen knooppunten via krachtig Ethernet.
Tot 5x betere energie-efficiëntie ten opzichte van conventionele opslagarchitecturen.
Industriepartners, waaronder grote leveranciers van opslag- en systeemsystemen, bouwen al ondersteunende platforms en plannen de beschikbaarheid in de tweede helft van 2026. Vroege benchmarks en projecties benadrukken aanzienlijke prestatie- en efficiëntiewinsten voor inferentieworkloads die afhankelijk zijn van snelle contexttoegang en delen.Naast pure prestaties richt de nieuwe infrastructuur zich ook op schaalbaarheid en energie-efficiëntie, twee beperkingen die datacenters achtervolgen naarmate de AI-workloads toenemen.Door opslagdiensten te ontkoppelen van host-CPU's en door hardware versnelde plaatsing van cachegegevens met sleutelwaarde mogelijk te maken, belooft de architectuur tot vijfvoudige verbeteringen in tokens die per seconde worden verwerkt en energie-efficiëntie vergeleken met conventionele opslagsystemen onder vergelijkbare belasting.

Dit ontwerp zorgt ook voor een nauwere integratie tussen krachtige netwerk-, geheugen- en opslagfuncties, waarbij gebruik wordt gemaakt van geavanceerde Ethernet-fabrics om directe geheugentoegang met lage latentie op afstand tussen servers te leveren.Het resultaat is een basis die beter aansluit bij de evoluerende inferentieparadigma's waarbij geheugenpersistentie en het delen van context tussen knooppunten van cruciaal belang zijn.Naarmate de AI-infrastructuur evolueert, zou deze opslaglaag een belangrijke factor kunnen worden voor AI-diensten van de volgende generatie, waardoor de latentie- en energiekosten worden verlaagd en tegelijkertijd complexere redeneertaken op schaal worden ondersteund.