Maskinvare-stakken
Den interaktive historien over gir deg det visuelle overblikket. Nå går vi dypere inn i de tekniske valgene bak hvert lag.
GPU-valg
Ikke alle GPU-er er like, og valget avhenger helt av arbeidsbelastningsprofilen din.
Akselerator
Best egnet for
Minne Interconnect
NVIDIA H100
General trening, inferens
80 GB HBM3
NVLink 4 — 900 GB/s
NVIDIA H200
Minneintensiv trening + lang kontekst inferens
141 GB HBM3e — 4,8 TB/s
NVLink 4 — 900 GB/s
NVIDIA B200
Frontier-trening og inferens-
gjennomstrømming
192 GB HBM3e — 8 TB/s
NVLink 5 — 1,8 TB/s
NVIDIA GB200 NVL72
Rack-skala trening og inferens som én enhet
72 GPU-er, 13,5 TB HBM3e
NVLink-fabric — 130 TB/s samlet
AMD MI325X
Inferens på store modeller
256 GB HBM3e — 6 TB/s
Infinity Fabric
AMD MI355X
Frontier-trening, FP4/FP6-inferens
288 GB HBM3e — 8 TB/s
Infinity Fabric
Nøkkelen er å matche arkitekturen til arbeidsbelastningen, ikke å jage den nyeste modellen for sin egen skyld. For storskala trening i frontier-klassen behandler Blackwell-baserte GB200 NVL72-rack 72 GPU-er som ett enkelt NVLink-domene og reduserer det som tidligere krevde multi-rack InfiniBand-fabrikker til ett enkelt væskeavkjølt skap. For minneintensiv inferens med svært lange kontekster lar H200s 141 GB HBM3e-modeller passe helt på kortet som ellers ville krevd tensor parallelism på tvers av flere GPU-er. På AMD-siden gjør MI355X sin 288 GB HBM3e og native FP4/FP6-støtte den til et sterkt inferens-per-krone-alternativ for kunder som kan akseptere en yngre programvarestakk mot bedre prisytelse.
Nettverk: Den skjulte flaskehalsen
I et GPU-datasenter er nettverket ofte den begrensende faktoren, ikke GPU-ene selv. Distribuerte treningsarbeidsbelastninger må synkronisere gradients på tvers av titalls eller hundrevis av GPU-er, og enhver nettverksflaskehals påvirker treningstiden direkte.
Vår nettverksarkitektur
Spine-leaf topology med 400GbE Ethernet og RDMA over Converged Ethernet (RoCE) for GPU-til-GPU-kommunikasjon innenfor rack. For større treningsklynger deployer vi InfiniBand NDR (400Gb/s) med adaptiv routing for å minimere congestion. Hvert rack har redundant top-of-rack switches, og spine-laget er designet for non-blocking throughput.
Strøm og kjøling
En enkelt 8-GPU Hopper-server trekker 6 til 10 kW. En Blackwell-basert HGX-server går over 14 kW, og et fullt GB200 NVL72-rack lander på 120 kW, sammenlignet med 5 til 8 kW for et tradisjonelt compute-rack. Dette endrer datasenterdesign fundamentalt. Luftkjøling når grensen rundt 30 kW per rack. Væskekjøling er ikke lenger en luksus, det er den eneste måten å huse moderne AI-maskinvare på.
💧
Direct Liquid Cooling
Cold plates på hver GPU med kjølevæske fordelt på fasilitetsnivå. Eliminerer det akustiske marerittet med tusenvis av høyhastighetsvifter.
⚡
PUE 1.1-1.2
Power Usage Effectiveness (PUE) langt under bransjegjennomsnittet på 1,5+ for luftkjølte anlegg. Lavere energikostnader og mindre karbonavtrykk.
📐
High-Density Racks
Direct-to-chip cold plates fører varmen ut av racket i stedet for ut i rommet. Dette er hva som muliggjør 120 kW per rack i et GB200 NVL72-fotavtrykk, omtrent 15 ganger tettheten til et tradisjonelt compute-rack, med betydelig lavere facility PUE.
Kubernetes for GPU-arbeidsbelastninger
Standard Kubernetes behandler compute-ressurser som utskiftbare, der en CPU-kjerne er lik en annen. GPU-er bryter fullstendig med denne forutsetningen. En arbeidsbelastning som trenger 8 GPU-er med NVLink-interconnect kan ikke spres tilfeldig på tvers av noder.
NVIDIA GPU Operator
Vi deployer NVIDIA GPU Operator på alle GPU-noder. Den håndterer hele livssyklusen: drivere, container runtimes, device plugins og monitoring-eksportører. Når en ny GPU-node blir med i klyngen, installerer operatoren automatisk drivere, konfigurerer container runtime for GPU passthrough og registrerer GPU-ressurser hos Kubernetes-scheduleren.
GPU Operator Device Plugin DCGM Exporter Container Runtime Node Feature Discovery
Multi-Instance GPU (MIG)
Ikke alle arbeidsbelastninger trenger en hel GPU. Små inferensmodeller trenger kanskje bare en brøkdel av en H100s kapasitet. MIG lar oss partisjonere en enkelt fysisk GPU i opptil syv isolerte instanser, hver med dedikert minne og compute-ressurser.
I stedet for at en liten modell bare bruker 10 % av en GPUs compute-kapasitet, lar MIG oss pakke flere modeller på samme kort. Dette forbedrer utnyttelsesgraden og kostnadseffektiviteten dramatisk.
Topologi-bevisst planlegging
For distribuerte treningsjobber som krever flere GPU-er, er plasseringen ekstremt viktig. Åtte GPU-er på én enkelt node koblet via NVLink (900 GB/s) vil trene 2-3 ganger raskere enn åtte GPU-er spredt over flere noder som kommuniserer over selv 400GbE. Vår scheduler bruker tilpassede topologi-begrensninger og NUMA-bevisst planlegging for å sikre at multi-GPU-arbeidsbelastninger plasseres på den mest effektive maskinvarekonfigurasjonen.
Inferens i stor skala
Trening får all oppmerksomheten, men inferens er der de fleste GPU-sykluser faktisk blir brukt. Å kjøre modeller i produksjon med lav latency og høy gjennomstrømming krever sin egen serie med ingeniørmessige utfordringer.
Model Serving
Vi bruker en kombinasjon av serving-rammeverk avhengig av arbeidsbelastningen:
vLLM
PagedAttention memory management increases LLM throughput by 2-4x over naive implementations. Ideal for high-concurrency chat and completion APIs.
TensorRT-LLM
Compiles models into optimized execution plans that squeeze every FLOP out of the hardware. Best for latency-critical applications.
Triton Inference Server
Håndterer model ensemble pipelines og gir et enhetlig API-lag. Støtter dynamisk batching og model versioning rett ut av boksen.
Batching-strategier
Nøkkelen til effektiv GPU-inferens er å holde maskinvaren mettet. Dynamisk batching samler innkommende forespørsler og grupperer dem før de sendes til GPU-en. Continuous batching går lenger: når individuelle forespørsler i en batch fullføres, settes nye forespørsler umiddelbart inn uten å vente på at den lengste forespørselen er ferdig.
Continuous Batching Impact
For LLM-inferens med variabel utdata-lengde kan continuous batching fordoble throughput sammenlignet med statisk batching. Forespørsler som genererer korte svar blokkerer ikke GPU-en fra å prosessere nytt arbeid.
Latency vs. Throughput
Hver inferens-deployering innebærer et kompromiss. Vi konfigurerer dette per arbeidsbelastning:
Workload Type
Batch Size
Priority
Use Case
Real-time chat
Small (1-4)
Latency
Customer-facing AI assistants
API endpoints
Medium (8-32)
Balanced
Developer APIs, search
Bulk processing
Large (64+)
Throughput
Document analysis, batch embeddings
Tilpassede modeller: LoRA Fine-Tuning & Data Pipelines
Rå inferens er bare halvparten av historien. De fleste virksomheter trenger modeller tilpasset sitt spesifikke domene, trent på egne data, med sitt eget språk og sin egen kontekst. Det er her vår finjusteringsplattform kommer inn.
LoRA
Parametereffektiv finjustering
10x
Raskere enn full finjustering
LoRA Fine-Tuning i stor skala
Full finjustering av en 70B-parametermodell krever hundrevis av GB GPU-minne og flere dagers compute. LoRA (Low-Rank Adaptation) endrer spillereglene, ved å trene små adapter-matriser i stedet for å endre alle modellvekter, oppnår vi tilsvarende kvalitet mens vi bare endrer mindre enn 0,1 % av parametrene.
Hvordan LoRA fungerer
I stedet for å oppdatere alle milliarder av parametere, fryser LoRA den pre-trente modellen og injiserer små trenbare matriser inn i hver transformer-layer. Resultatet: finjustering som tar timer i stedet for dager, bruker en brøkdel av GPU-minnet, og produserer adaptere som bare er noen megabytes, ikke gigabytes. Du kan hot-swappe adaptere under inferens for å servere flere spesialiserte modeller fra én enkelt base.
Vår plattform håndterer hele LoRA-arbeidsflyten: datasettforberedelse, orkestrering av treningsjobber, adapter-håndtering og deployering. Last opp dine data, konfigurer hyperparametere, og vi tar oss av resten, planlegger trening på tilgjengelige GPU-er, overvåker loss-kurver og deployer automatisk det beste checkpointet.
🔧
Adapter-håndtering
Versjonering, A/B-testing og hot-swap av LoRA-adaptere uten å laste inn basismodellen på nytt. Server dusinvis av spesialiserte modeller fra en enkelt GPU.
📊
Treningsdashboard
Sanntids loss-kurver, evalueringsmetrikker og ressursutnyttelse. Automatisk early stopping og checkpoint-håndtering.
Data Pipelines: Scraping og prosessering
Finjustering er bare så god som dataene dine. Vår plattform inkluderer en komplett data-pipeline for å bygge høykvalitets treningsdatasett, fra web scraping og dokumentinnhenting til rensing, deduplisering og formatering.
🌐
Web Scraping
Automatisert, tidsplanlagt scraping med intelligent innholdsekstraksjon. Håndterer JavaScript-rendrede sider, rate limiting og deduplisering i stor skala.
🧹
Data Cleaning
Fjerning av PII, kvalitetsfiltrering, deduplisering og formatkonvertering. Transformer rå scraped data til rene, treningsklare datasett.
📝
Instruction Tuning
Generer instruction/response-par fra dine dokumenter. Bygg chat-optimaliserte datasett fra kunnskapsbaser, FAQs og dokumentasjon.
Enterprise Data Integrations
Finjustering og RAG er bare nyttig hvis du faktisk får tilgang til dataene dine. Vår plattform kobler seg direkte til systemene der forretningskunnskapen din ligger, uten manuelle eksporter, CSV-opplastinger eller kopiering av dokumenter.
📁
SharePoint & OneDrive
Innhenting av dokumenter, wikier og team-sider direkte. Automatisk synkronisering holder treningsdataene og RAG-indeksene oppdaterte når innholdet endres.
🗄️
Databases
Kobling til PostgreSQL, MySQL, MSSQL, MongoDB og flere. Spørring av strukturerte data for RAG-kontekst eller ekstrahering av poster til finjusteringsdatasett.
📄
Document Processing
Parsing av PDF-er, Word-dokumenter, Excel-regneark, PowerPoint, HTML og Markdown. OCR for skannede dokumenter. Strukturert ekstraksjon fra alle formater.
🔗
Filservere & delte nettverksressurser
Støtte for SMB/CIFS og NFS-mount. Gjennomgang av filservere etter tidsplan, automatisk indeksering av nye dokumenter og respekt for eksisterende mappetillatelser.
Støttede integrasjoner
SharePoint, OneDrive, Google Drive, Confluence, Notion, Jira, Slack, Teams, S3, Azure Blob, GCS, SFTP, REST API-er, GraphQL-endepunkter, IMAP e-post — og egne koblinger for alt vi ikke støtter rett ut av boksen. Dataene blir i ditt miljø, vi bringer regnekraften til dataene, ikke omvendt.
SharePoint OneDrive Google Drive Confluence Notion PostgreSQL MongoDB S3 REST APIs PDF Word/Excel OCR
Chat og samtalehåndtering
Når modellen din er finjustert, trenger den et produksjonsklart serving-lag som håndterer kompleksiteten i virkelige samtaler.
Vår Chat-plattform
Multi-turn samtalehåndtering med context windowing, minnesummering og retrieval-augmented generation (RAG). Innebygde guardrails for innholdssikkerhet, token-budsjettering og overvåking av svarkvalitet. Deployer som API, bygg inn som widget eller integrer med eksisterende verktøy.
RBAC: Detaljert tilgangskontroll
I et miljø med flere team bør ikke alle ha tilgang til alt. Vår plattform tilbyr finmasket rollebasert tilgangskontroll på to viktige dimensjoner: modeller og MCP-verktøy.
🔐
Modellnivå-RBAC
Styr hvilke team som kan aksessere hvilke modeller og LoRA-adaptere. Begrens dyre GPU-modeller til produksjonsarbeidsbelastninger, gi utviklingsteam tilgang til mindre modeller, og sørg for at sensitive finjusterte modeller kun er tilgjengelige for autoriserte brukere.
🧩
MCP-verktøy-tillatelser
Definer hvilke MCP-verktøy hver rolle kan bruke. Begrens kodeutførelsesverktøy til engineering, begrens datatilgangsverktøy etter avdeling, og auditér hvert verktøy-kall. Zero-trust som standard, ingen verktøytilgang uten eksplisitt tillatelse.
Hvorfor dette er viktig
Uten RBAC kan enhver bruker med API-tilgang kjøre alle modeller og bruke alle verktøy, inkludert verktøy som aksesserer databaser, utfører kode eller kaller eksterne tjenester. Vårt tillatelsessystem sørger for at en markedsføringsinterns chatbot ikke utilsiktet kan aktivere et produksjonsdatabaseverktøy eller bruke opp din dyreste GPU-kapasitet.
LoRA Fine-Tuning Web Scraping Data Pipelines Chat API RBAC RAG Guardrails MCP Tools
Hele løkken, scrape domene-data, rens og formater det, finjuster en LoRA-adapter, deploy den bak en chat-API med RAG og guardrails, kjører helt og holdent på vår plattform. Ingen sammenkobling av fem ulike verktøy fra fem forskjellige leverandører.
Autoskalering i praksis
Den interaktive historien viste autoskalering på et overordnet nivå, etterspørselen øker, nye pods starter, nye noder provisioneres. I praksis er GPU-autoskalering betydelig mer kompleks enn CPU-autoskalering.
Tilpassede GPU-metrikk
Standard Kubernetes HPA skalerer basert på CPU og minne, noe som er ubrukelig for GPU-arbeidsbelastninger. Vi deployer tilpassede metrics-adaptere som eksponerer GPU-spesifikke signaler:
Queue Depth GPU Utilization % Memory Pressure P99 Latency Tokens/Second
HPA overvåker disse metrikkene og skalerer antallet inferens-pods deretter. Når etterspørselen synker, skalerer pods like aggressivt ned igjen.
Cluster autoskalering
Når HPA legger til flere pods enn det gjeldende klyngen kan håndtere, provisionerer Cluster Autoscaler nye GPU-noder fra vår warm pool. Hele prosessen, IPMI-boot, OS-installasjon via PXE, GPU Operator-oppsett og cluster join, tar minutter, ikke timer.
Kostnadsoptimalisering
Smart skaleringsstrategi
GPU-noder er dyre. Vi bruker forutsigende skalering basert på historiske mønstre (mange AI-arbeidsbelastninger har forutsigbare daglige sykluser) kombinert med reaktiv skalering for uventede topper. Bin packing-algoritmer konsoliderer arbeidsbelastninger på færre noder i lavbelastningsperioder, slik at tomme noder kan slås av.
Sikkerhet og Zero Trust
GPU-infrastruktur håndterer noen av de mest verdifulle dataene i enhver virksomhet, proprietære modeller, treningsdata og inferens-innganger som kan inneholde sensitiv kundeinformasjon. Sikkerhet kan ikke være en ettertanke.
Nettverksisolasjon
Hver tenants GPU-arbeidsbelastninger kjører i isolerte nettverksnamespaces med Kubernetes NetworkPolicies som håndhever strenge ingress/egress-regler. GPU-til-GPU trenings-trafikk er segregert på dedikerte VLAN-er. Kontrollplanet kommuniserer utelukkende over mutual TLS.
Kryptert inferens
Data i transitt er kryptert ende-til-ende, fra klientforespørselen gjennom load balancer, inn i inferens-poden og tilbake. For kunder med sensitive arbeidsbelastninger tilbyr vi også confidential computing, der modellvekter og inferens-data forblir kryptert i GPU-minnet via maskinvare-TEE-funksjoner i nyere NVIDIA- og AMD-akseleratorer. Dette er i samsvar med GDPRs dataminimeringskrav rett ut av boksen, og full per-handling audit logging er tilgjengelig for kunder som trenger det til sine egne compliance-programmer.
Resultatet: Infrastruktur som bare fungerer
Når alle disse lagene fungerer sammen, fysisk infrastruktur, nettverk, Kubernetes-orkestrering, GPU-bevisst planlegging, intelligent autoskalering og zero-trust-sikkerhet, får du en plattform der AI-team kan fokusere på å bygge modeller i stedet for å administrere infrastruktur.
Deploy en modell, sett dine latens- og throughput-mål, og plattformen håndterer resten: skalere GPU-er opp og ned etter etterspørsel, rute trafikk for optimal ytelse, og holde alt sikkert og kompatibelt.
Det er det ZeroSubnet leverer. Ikke bare GPU-er i et rack, men en komplett, administrert plattform for AI-infrastruktur i alle skalaer. Hvis du bygger AI-applikasjoner og bruker for mye tid på infrastruktur, kom å prat med oss.