PC für Machine-Learning-Ingenieure: Training, Fine-Tuning, Forschung

14. Juni 2026

Ein Machine-Learning-Ingenieur hat andere Anforderungen als ein Benutzer, der nur mit einem Modell chatten möchte. Trainieren, Fine-Tuning durchführen, Experimente durchführen, große Datensätze verarbeiten: Diese Aufgaben stellen sehr unterschiedliche Hardwareanforderungen an die einfache Inferenz. Den falschen Computer zu kaufen, bedeutet, bei jedem Experimentierzyklus Stunden zu verlieren.

Dieser Leitfaden geht von den realen Workflows eines ML-Ingenieurs aus, leitet daraus die erforderliche Hardware ab und schlägt die passenden Workstations für jede Art von Last vor, vom Entwicklungsarbeitsplatz bis zur Multi-GPU-Trainingsstation.

Was ein ML-Ingenieur wirklich macht und was das erfordert

Modelltraining

Erfordert: VRAM, Rechenleistung, Langzeitstabilität

Das Training von Grund auf oder die Fortsetzung eines Vortrainings beansprucht die GPU voll aus, manchmal tagelang. Der VRAM begrenzt die Modell- und Batchgröße. Stabilität ist bei langen Läufen entscheidend.

Fine-Tuning (LoRA, QLoRA, komplett)

Erfordert: VRAM, Iterationsgeschwindigkeit

Der häufigste Anwendungsfall in der Praxis. LoRA und QLoRA reduzieren die Anforderungen, aber ein ernsthaftes Fine-Tuning erfordert je nach Größe des Basismodells 24 GB oder mehr.

Inferenz und Bewertung

Erfordert: VRAM, Bandbreite

Modelle testen, Varianten vergleichen, eine lokale API bereitstellen. Weniger ressourcenintensiv als das Training, aber der VRAM bleibt der Faktor für die Modellgröße.

Datenvorbereitung

Erfordert: CPU, RAM, schnelle Speicherung

Bereinigung, Tokenisierung, Augmentierung, Laden. Dieser oft unterschätzte Schritt wird durch CPU, RAM und Speichergeschwindigkeit begrenzt, nicht durch die GPU.

Der entscheidende Unterschied: Das Trainieren und Feinabstimmen eines Modells ist radikal anspruchsvoller als dessen Verwendung. Die Inferenz eines 14-Milliarden-Parameter-Modells passt auf 16 GB. Das Fine-Tuning desselben Modells kann das Zwei- bis Dreifache erfordern, aufgrund von Gradienten, Optimiererzuständen und im Speicher gehaltenen Aktivierungen. Eine Maschine auf Inferenz auszurichten, wenn man trainieren möchte, ist der kostspieligste Fehler.

Die Komponenten, die wirklich zählen

VRAM, vor allem. Er bestimmt die Größe der Modelle, die Sie trainieren und feinabstimmen können. 24 GB ist eine Komfortschwelle, 32 GB eröffnen ernsthafte Modelle, 96 GB ECC zielen auf Forschung und große Modelle ab.
ECC-Speicher für lange Läufe. Bei einem Training über mehrere Tage kann ein stiller Speicherfehler einen gesamten Lauf korrumpieren. VRAM ECC (RTX 6000 Blackwell Karten) schützt kritische Berechnungen.
CPU und RAM für die Datenpipeline. Eine leistungsstarke GPU, die durch langsames Laden von Daten ausgehungert wird, läuft leer. Viele Kerne und reichlich RAM versorgen die GPU ohne Engpass.
Schneller NVMe-Speicher. Große Datensätze und Checkpoints erfordern einen hohen Durchsatz. Ein NVMe Gen 4 oder Gen 5 verhindert, dass die Festplatte zum begrenzenden Faktor wird.
Multi-GPU zum Skalieren. Zwei Karten ermöglichen paralleles Training, die Verarbeitung größerer Modelle oder das gleichzeitige Starten mehrerer Experimente.

Die Fine-Tuning-Falle. Oft liest man, dass ein Modell „auf 16 GB passt“. Das stimmt für die Inferenz, selten aber für das Training. Ein vollständiges Fine-Tuning (Full Fine-Tuning) eines 7-Milliarden-Parameter-Modells kann 60 GB VRAM überschreiten. LoRA- und QLoRA-Techniken reduzieren diesen Bedarf stark, aber überprüfen Sie immer den angestrebten Trainingsmodus, bevor Sie Ihre Karte auswählen.

Welche VRAM-Größe für welche ML-Aufgabe?

Aufgabe	Empfohlener VRAM	Kartentyp	Kommentar
Lernen, Prototyping, kleine Modelle	16 GB	RTX 5070 Ti	Ideal für den Einstieg und die Entwicklung
Fine-Tuning LoRA/QLoRA (bis zu 14B)	24 bis 32 GB	RTX 5090 32 GB	Der Branchenstandard
Multi-Experiment-Training, mittlere Modelle	2 × 32 GB	2 × RTX 5090	Parallelisierung, mehrere Läufe
Intensives Fine-Tuning, große Modelle, lange Läufe	96 GB ECC	RTX 6000 Blackwell	ECC für Zuverlässigkeit
Forschung, Full Fine-Tuning, F&E	192 GB ECC	2 × RTX 6000 Blackwell	Das High-End-Modell lokal
Prototyping sehr großer Modelle	128 GB Unified	NVIDIA GB10	Unified Memory, kompaktes Format

Eine lokale Umgebung, bereit zum Codieren

Unsere Workstations werden auf Wunsch mit dem standardmäßigen ML-Ökosystem vorkonfiguriert geliefert, damit Sie sofort nach dem Auspacken codieren können, anstatt Stunden mit der Einstellung von CUDA-Versionen zu verbringen.

# Typische Umgebung, auf Wunsch vorkonfiguriert
# PyTorch mit CUDA 12.8 (Blackwell RTX 50xx / RTX 6000 Karten)
pip install torch torchvision torchaudio \
  --index-url https://download.pytorch.org/whl/cu128

# Gängige ML-Tools
pip install transformers datasets accelerate peft bitsandbytes
pip install jupyterlab scikit-learn pandas

# LoRA Fine-Tuning sofort einsatzbereit mit PEFT + Transformers

Die echte Zeitersparnis: Inkompatibilitäten von Versionen (CUDA, cuDNN, PyTorch, Treiber) kosten viel Zeit. Unsere Maschinen werden mit einem kohärenten und getesteten Stack geliefert – PyTorch, CUDA, Hugging Face Bibliotheken, Jupyter – damit Ihre erste Code-Zelle ohne Konfiguration ausgeführt wird.

Unsere Stationen nach ML-Lasttyp

Alle unsere Maschinen werden in Auriol (13390) von Hand montiert, vor dem Versand getestet und in die gesamte Europäische Union geliefert. Vollständig konfigurierbar, einschließlich der GPU.

Entwicklung und Prototyping

Radiance CoreAI 32 für Machine-Learning-Entwicklung

Radiance PC CoreAI 32 — RTX 5070 Ti 16 GB

CPU AMD Ryzen 9 9900X (12c)

GPU RTX 5070 Ti 16 GB

RAM DDR5 32 GB

Speicher NVMe 1 TB

OS Windows 11 Pro oder Ubuntu

Verwendung Entwicklung, Inferenz, kleines FT

Ideal zum Lernen, Entwickeln, für Inferenz und leichtes LoRA-Fine-Tuning.

Der Einstiegs-ML-Entwicklungsarbeitsplatz. 12 Kerne für die Datenpipeline, 16 GB VRAM für Inferenz und Prototyping. Der gute Ausgangspunkt vor dem ernsthaften Training.

2 442 € ab

PyTorch + CUDA Stack auf Wunsch vorkonfiguriert

Diese Station konfigurieren

Branchenreferenz — Fine-Tuning

Radiance CoreAI 64 RTX 5090 für Machine-Learning-Fine-Tuning

Radiance PC CoreAI 64 — RTX 5090 32 GB

CPU AMD Ryzen 9 9950X3D (16c)

GPU RTX 5090 32 GB

RAM DDR5 64 GB

Speicher NVMe 1 TB

Bandbreite 1 792 GB/s

Stromversorgung 1 200 W 80+ Gold

32 GB VRAM und rekordverdächtige Bandbreite: die Referenzmaschine für LoRA und QLoRA Fine-Tuning.

Die Workstation, die den Großteil des Geschäfts abdeckt. 32 GB zum Feinabstimmen von Modellen bis zu 14 Milliarden Parametern, 64 GB RAM für die Datenpipeline, eine 16-Kern-CPU mit 3D-Cache. Das beste Kapazitäts-/Preisverhältnis für einen einzelnen ML-Ingenieur.

6 042 € ab

Kompletter ML-Stack auf Wunsch vorkonfiguriert

Diese Station konfigurieren

Multi-GPU — Parallelisierung

Radiance Rack 2x RTX 5090 für Multi-GPU-Training

Radiance CoreAI Rack — 2 × RTX 5090 (64 GB)

CPU AMD Ryzen 9 9950X3D

GPU 2 × RTX 5090 32 GB

Gesamter VRAM 64 GB

RAM DDR5 128 GB

Format Rack 4U

Stromversorgung 2 000 W Platinum

Zwei GPUs für paralleles Training, das Starten mehrerer Experimente oder die Aufteilung eines großen Modells.

Zum Skalieren. Zwei RTX 5090 ermöglichen verteiltes Training, die Verarbeitung größerer Modelle oder das gleichzeitige Starten mehrerer Experimentläufe. 128 GB RAM zur Versorgung beider Karten ohne Engpass.

11 221 € ab

Verteiltes Training, Vor-Ort-Installation möglich

Dieses Rack konfigurieren

Forschung und F&E — ECC, erweiterbar auf 2 TB RAM

Radiance Pro AI Ultra Threadripper für Machine-Learning-Forschung

Radiance PC Pro AI Ultra — Threadripper PRO

CPU Threadripper PRO 7955WX

GPU RTX 6000 Blackwell 96 GB

RAM ECC DDR5 128 GB RDIMM

Max. RAM bis zu 2 TB ECC

VRAM 96 GB ECC

Format Rack 4U

96 GB VRAM ECC und bis zu 2 TB RAM: für schweres Fine-Tuning und Forschung.

Die Plattform für ML-Ingenieure, die Grenzen verschieben. 96 GB VRAM ECC für große Modelle und lange Läufe ohne Korruptionsrisiko, eine Threadripper PRO CPU und erweiterbarer RAM auf 2 TB für die anspruchsvollsten Datenpipelines.

20 213 € ab

Maßgeschneidert, personalisiertes Angebot, Installation vor Ort

Angebot anfordern

High-End — 192 GB VRAM ECC

Radiance Rack 2x RTX 6000 Blackwell ECC für ML-Forschung

CoreAI 128 Rack — 2 × RTX 6000 Blackwell (192 GB ECC)

CPU AMD Ryzen 9 9950X3D

GPU 2 × RTX 6000 96 GB ECC

Gesamter VRAM 192 GB ECC

RAM DDR5 128 GB

Format Rack 4U

Stromversorgung 2 000 W Platinum

192 GB VRAM ECC für Full Fine-Tuning, große Modelle und kontinuierliche F&E.

Die Spitze unserer Produktpalette für lokales ML. 192 GB VRAM ECC ermöglichen das vollständige Fine-Tuning großer Modelle, verteiltes Training auf zwei professionellen Karten und Rechenzentrums-Zuverlässigkeit für kontinuierliche Lasten.

27 980 € ab

F&E, Full Fine-Tuning, Installation vor Ort

Angebot anfordern

Unified Memory — große, kompakte Modelle

Mini-Server NVIDIA GB10 für ML-Prototyping großer Modelle

Mini-KI-Server NVIDIA GB10 — ASUS Ascent GX10

Chip NVIDIA GB10 Grace Blackwell

Speicher 128 GB LPDDR5X Unified

KI-Leistung 1 PetaFLOP FP4

Format 150×150×51 mm

OS DGX OS (Ubuntu)

Verbrauch ca. 240 W

128 GB Unified Memory für das Prototyping sehr großer Modelle, in einem Desktop-Format.

Ein anderer Ansatz: Der 128 GB Unified CPU-GPU-Speicher ermöglicht das Laden von Modellen, die selbst eine RTX 5090 nicht aufnehmen könnte, in einem kompakten und leisen Format, mit der CUDA- und Jupyter-Umgebung sofort einsatzbereit.

3 999 € ab

DGX OS, ML-Umgebung sofort einsatzbereit

Diesen Server entdecken

Alles ist vollständig konfigurierbar. Jede Workstation kann von Grund auf personalisiert werden: Grafikkarte, Prozessor, RAM-Menge, Speicher, Netzteil, Kühlung, Gehäuse. Sie können eine Konfiguration direkt im Online-Konfigurator auf jeder Produktseite anpassen oder uns für ein maßgeschneidertes Angebot kontaktieren. Benötigen Sie spezifisches VRAM, eine Dual-Karte, erweiterten RAM, eine bestimmte Plattform? Wir passen die Maschine genau an Ihre Arbeitslast an. Schreiben Sie uns an contact@radiancesystems.eu oder über das Angebotsformular auf der Website.

Warum eine lokale Workstation statt der Cloud

Die GPU-Cloud hat ihren Platz, aber für einen ML-Ingenieur, der täglich arbeitet, bietet eine lokale Workstation konkrete Vorteile.

Kontrollierte Kosten. GPU-Stunden in der Cloud summieren sich schnell. Eine lokale Workstation ist eine einmalige Investition, die sich nach wenigen Monaten intensiver Nutzung amortisiert.
Sofortige Iteration. Keine Bereitstellung, keine Wartezeit für Instanzen, keine Datenübertragung. Sie starten Ihre Experimente sofort.
Private Daten. Ihre Datensätze und proprietären Modelle bleiben bei Ihnen, ohne über einen Drittanbieter übertragen zu werden.
Volle Verfügbarkeit. Keine GPU-Kontingente, keine Instanzknappheit, keine Ausfälle. Ihre Maschine ist immer verfügbar.
Stabile Umgebung. Ihr Software-Stack ändert sich nicht von einer Sitzung zur nächsten.

Ein hybrider Ansatz funktioniert gut: eine lokale Workstation für Entwicklung, Prototyping und die meisten Fine-Tunings, ergänzt durch punktuelle Cloud-Nutzung für Lastspitzen oder sehr große Trainings. Sie behalten die Kosten- und Datenkontrolle, während Sie bei Bedarf auf mehr Leistung zugreifen können.

Kurz gesagt

Welches VRAM für einen ML-Ingenieur?
16 GB für Entwicklung und Prototyping, 24 bis 32 GB für LoRA/QLoRA Fine-Tuning, 96 GB ECC und mehr für Full Fine-Tuning und Forschung.

Ist ECC-Speicher notwendig?
Für lange Trainings, die mehrere Tage dauern, ja: ECC schützt vor stillen Speicherfehlern, die einen Lauf beschädigen können. Die RTX 6000 Blackwell Karten sind damit ausgestattet.

Ist die CPU wichtig für ML?
Ja, für die Datenvorbereitung. Eine leistungsstarke GPU, die schlecht versorgt wird, läuft im Leerlauf. Viele Kerne und großzügiger RAM vermeiden diesen Engpass.

Benötigt Fine-Tuning mehr als Inferenz?
Deutlich. Aufgrund von Gradienten und Optimiererzuständen kann Fine-Tuning zwei- bis dreimal so viel VRAM wie die Inferenz desselben Modells erfordern.

Lokal oder Cloud?
Lokal ist wirtschaftlicher und schneller für den täglichen Gebrauch. Ein hybrider Ansatz, lokal plus punktuelle Cloud, ist oft am relevantesten.

Sind die Maschinen sofort einsatzbereit?
Ja, auf Anfrage: PyTorch, CUDA, Hugging Face Bibliotheken und Jupyter vorkonfiguriert, damit Sie sofort nach dem Auspacken codieren können.

Kann die Konfiguration angepasst werden?
Ja, vollständig. Grafikkarte, CPU, RAM, Speicher, Netzteil, Kühlung und Gehäuse sind auf jeder Produktseite über den Online-Konfigurator konfigurierbar. Für spezifische Anforderungen oder eine maßgeschneiderte Konfiguration kontaktieren Sie uns unter contact@radiancesystems.eu oder über das Angebotsformular: Wir passen die Maschine genau an Ihre Arbeitslast an.

Zurück zum Blog

Land/Region

Sprache

Was ein ML-Ingenieur wirklich macht und was das erfordert

Modelltraining

Fine-Tuning (LoRA, QLoRA, komplett)

Inferenz und Bewertung

Datenvorbereitung

Die Komponenten, die wirklich zählen

Welche VRAM-Größe für welche ML-Aufgabe?

Eine lokale Umgebung, bereit zum Codieren

Unsere Stationen nach ML-Lasttyp

Radiance PC CoreAI 32 — RTX 5070 Ti 16 GB

Radiance PC CoreAI 64 — RTX 5090 32 GB

Radiance CoreAI Rack — 2 × RTX 5090 (64 GB)

Radiance PC Pro AI Ultra — Threadripper PRO

CoreAI 128 Rack — 2 × RTX 6000 Blackwell (192 GB ECC)

Mini-KI-Server NVIDIA GB10 — ASUS Ascent GX10

Warum eine lokale Workstation statt der Cloud

Kurz gesagt

Entdecken Sie unser Sortiment an PCs für lokale KI

Ihr Angebot für eine maßgeschneiderte KI-Lösung innerhalb von 24–48 Stunden

Weitere Fragen?

Weitere Artikel