PC für Stable Diffusion 2026: Welche GPU für Flux, SDXL und ComfyUI?

25. Mai 2026

Möchten Sie 2026 einen PC für Stable Diffusion zusammenstellen? Das Ökosystem der KI-Bilderzeugung ist explodiert: Flux.1 Dev, Flux.2, SD 3.5 Large, SDXL, Qwen Image sind heute unverzichtbare kreative Werkzeuge für Illustratoren, Fotografen, Designer und Content-Ersteller. Doch hinter der Magie verbirgt sich eine technische Realität: VRAM ist der entscheidende Faktor, viel mehr als die reine GPU-Leistung. Dieser Leitfaden erklärt Ihnen genau, welche Hardware Sie je nach Anwendung, bevorzugtem Modell und Budget wählen sollten.

Warum Stable Diffusion 2026 so anspruchsvoll geworden ist?

Im Jahr 2024 reichte eine GPU mit 8 GB VRAM für SD 1.5 und sogar SDXL locker aus. Im Jahr 2026 hat sich das Spiel mit der Einführung von Flux (Black Forest Labs) und SD 3.5 Large (Stability AI) radikal geändert:

Flux.1 Dev: 12B Parameter, benötigt mindestens 12-16 GB VRAM bei 1024×1024 in FP16
Flux.2 Dev (Januar 2026): 4B (13 GB VRAM) und 9B (29 GB VRAM) Modelle
SD 3.5 Large: MMDiT-Architektur, ~12 GB in FP16, ~7 GB in FP8
SDXL: 6-8 GB in FP16, immer noch das Arbeitspferd der Mittelklasse
SD 1.5: läuft auf allem (4 GB reichen aus)

⚠️ Die Falle, die es 2026 zu vermeiden gilt: 8-GB-Karten (RTX 5060, RTX 4060) sind für ernsthafte KI-Bilderzeugung zu einer Sackgasse geworden. Sie können SDXL im reduzierten Modus ausführen, aber Flux wird fast unbrauchbar sein und das LoRA-Training unmöglich. 16 GB ist das praktische Minimum im Jahr 2026, 24 GB das ideale Ziel, 32 GB der kompromisslose Komfort.

Benötigter VRAM pro Modell (Referenz 2026)

Modell	Natives FP16	Quantisiertes FP8	Anwendungsfall
SD 1.5	~4 GB	N/A	Anime-Stil, schnelles Prototyping
SDXL 1.0	7-8 GB	N/A (bereits kompakt)	Vielseitiger Standard · Pony / Illustrious
SD 3.5 Medium	~6 GB	~4 GB	Besserer Text als SDXL
SD 3.5 Large	~12 GB (knapp)	~7 GB (komfortabel)	Fotoqualität, präziser Text
Flux.1 Dev ⭐	~16 GB	~13 GB	Qualitätsreferenz 2026 · perfekter Text
Flux.1 Schnell	~14 GB	~10 GB	4 Schritte · ultraschnell · Batch-Verarbeitung
Flux.2 Klein 4B (Jan. 2026)	~13 GB	~9 GB	Sub-1s auf High-End · Produktion
Flux.2 Klein 9B (Jan. 2026)	~29 GB	~18 GB	Nur RTX 5090 (FP16)
Qwen Image	~14-16 GB	~10 GB	Top Textqualität Chinesisch/Englisch

Quellen: WillItRunAI (April 2026), Compute-Market (April 2026), SolidAITech (Mai 2026). VRAM gemessen bei 1024×1024, Batch 1, Modell + VAE + Text-Encoder + Arbeitsspeicher.

Reale GPU-Benchmarks — IT/s auf Stable Diffusion im Jahr 2026

GPU	VRAM	SDXL 1024px	Flux Dev 1024px	Urteil 2026
RTX 5060 Ti 8 GB	8 GB	~7 s	❌ OOM in FP16	Für SD zu vermeiden
RTX 5060 Ti 16 GB ⭐	16 GB	~5 s	~28 s (FP8)	✅ Einsteiger-Sweetspot
RTX 5070 Ti 16 GB	16 GB	~3,5 s	~15 s (FP8)	✅ Gute Balance
RTX 5080 16 GB	16 GB	~2,8 s	~11 s	✅ Top Mittelklasse
RX 9070 XT 16 GB	16 GB	~5,5 s	⚠️ Begrenzt (ROCm)	⚠️ Ohne Training
RTX 5090 32 GB ⭐	32 GB	~2,2 s	~7 s (natives FP16)	✅ Absolute Referenz
RTX 6000 Pro 96 GB ECC	96 GB ECC	~3 s	~9 s	✅ Pro / Flux 2 Training

Quellen: DatabaseMart, FormulaMod (April 2026), Compute-Market (April 2026), ComfyUI Community Benchmarks. Messungen in ComfyUI bei 1024×1024, 20-28 Schritte, Batch 1.

Jenseits der GPU: Was ebenfalls zählt

System-RAM — mindestens 32 GB, 64 GB empfohlen

Für ComfyUI mit mehreren geladenen Modellen, ControlNet-Erweiterungen und LoRAs sind 32 GB DDR5 das praktische Minimum. 64 GB bieten echten Komfort für komplexe Multi-Modell-Workflows. DDR5-6000 verbessert die anfängliche Ladezeit von Checkpoints erheblich.

Schnelle NVMe-SSD — große Modelle

Ein Flux-Checkpoint wiegt 24 GB in FP16, ein SDXL-Checkpoint wiegt 7 GB, und eine vollständige Sammlung erreicht schnell 300-500 GB (Basismodelle + feinabgestimmte Checkpoints + LoRAs + ControlNets). Rechnen Sie mit mindestens 1 TB NVMe Gen 4, 2 TB für ernsthafte Benutzer. Eine langsame SSD macht einen Modellwechsel zu einer Kaffeepause.

CPU — weniger kritisch, aber nützlich

Die Stable Diffusion-Inferenz ist größtenteils GPU-basiert. Ein aktueller Ryzen 5 oder Ryzen 7 reicht völlig aus. Für komplexe Workflows (gleichzeitiges ComfyUI + Krita + DaVinci Resolve) bietet ein Ryzen 9 9900X oder 9950X3D Komfort.

Netzteil — überdimensioniert

Die RTX 5090 verbraucht Spitzenwerte von bis zu 575 W. Mit einem Ryzen 9 rechnen Sie mit mindestens 1.200 W 80+ Gold. Für Dual-GPU 2.000 W Platinum. Sparen Sie nicht am Netzteil – es ist das Teil, das alle Komponenten im Falle eines Ausfalls zerstören kann.

ComfyUI oder Automatic1111 im Jahr 2026?

Für einen neuen PC im Jahr 2026 ist die Wahl klar geworden:

ComfyUI — empfohlen. Knotenbasierte Architektur, effizientes Speichermanagement (Laden/Entladen bei Bedarf), TensorRT-Unterstützung für +30-60% Geschwindigkeit, riesige Community, native Unterstützung für Flux/SD3.5/Qwen, unterstützt quantisierte FP8- und GGUF-Modelle nativ.
Forge UI (A1111-Fork) — valable Alternative, einfacher zu erlernen. Exzellentes VRAM-Management, unterstützt Flux.
Automatic1111 — historisch, einfach, wird aber veraltet. Neigt dazu, mehr VRAM zu behalten, kann bei komplexen Workflows abstürzen.
InvokeAI / Krita AI — für integrierte Illustrations- / Fotobearbeitungs-Workflows.

Schnelle Installation von ComfyUI auf Ihrem PC

# ComfyUI klonen
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI

# PyTorch mit CUDA-Unterstützung installieren
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

# Abhängigkeiten installieren
pip install -r requirements.txt

# Ein Modell herunterladen (Beispiel: Flux.1 Dev FP8)
# In ComfyUI/models/diffusion_models/ platzieren

# ComfyUI starten
python main.py

💡 Tipp 2026: Aktivieren Sie --use-pytorch-cross-attention beim Start von ComfyUI, um 15-25% VRAM auf Blackwell-Architekturen (RTX 50xx) zu sparen. TensorRT-Beschleunigung kann die Leistung bei repetitiven Workflows um +30-60% steigern.

Der spezielle Fall des LoRA-Trainings

Bilder zu generieren ist eine Sache. Das Trainieren eigener LoRAs (persönlicher Stil, wiederkehrender Charakter, Produkt für E-Commerce-Fotos) erfordert deutlich mehr VRAM:

Basismodell	Minimal-VRAM	Komfort-VRAM	Dauer (30 Bilder)
SD 1.5 LoRA	8 GB	12 GB	30-60 min
SDXL LoRA	12 GB (knapp)	16-24 GB	1-3 Std. (je nach GPU)
SD 3.5 Large LoRA	16 GB (FP8)	24 GB	2-4 Std.
Flux.1 LoRA	24 GB	32 GB	3-6 h
Flux.2 LoRA	32 GB	48-96 GB	4-8 h

✅ Gut zu wissen: Auf AMD Radeon (ROCm) und Apple Silicon (MPS) ist das LoRA-Training im Jahr 2026 noch sehr eingeschränkt – bitsandbytes und Flash Attention sind noch nicht ausgereift. Für einen dedizierten PC für Stable Diffusion + LoRA-Training ist NVIDIA weiterhin obligatorisch.

Unsere dedizierten PCs für Stable Diffusion / ComfyUI — in Frankreich zusammengebaut

Radiance Systems entwickelt Workstations, die speziell für die KI-Bilderzeugung und das Training von LoRAs konfiguriert sind. ComfyUI + gängige Modelle (SDXL, Flux Dev FP8, ControlNets) auf Anfrage vorinstalliert. Sie starten Ihren PC und generieren Ihr erstes Bild in weniger als 2 Minuten.

Einstiegsbereich · Sweet Spot für Anfänger

PC Stable Diffusion Radiance CoreAI 16 RTX 5060 Ti 16Go

Radiance PC CoreAI 16 — RTX 5060 Ti 16 GB

CPU AMD Ryzen 5 7500F

GPU RTX 5060 Ti 16 GB GDDR7

RAM DDR5 16 GB

Speicher NVMe 1 TB

Plattform AM5 DDR5

OS Windows 11 Pro / Ubuntu

✅ Natives SDXL (~5s/Bild) · Flux Dev FP8 (~28s) · SD 3.5 Medium · SD 1.5 LoRA-Training

Der ideale Einstiegspunkt für Stable Diffusion im Jahr 2026. 16 GB GDDR7 – das praktischste Minimum – um SDXL bequem und Flux in FP8 ohne OOM auszuführen. Skalierbare AM5-Plattform: Möglichkeit zum späteren GPU-Upgrade.

1 703 € ab

ComfyUI + SDXL + Flux Dev FP8 vorinstallierbar

Diese Workstation konfigurieren →

Leistung · Erfahrener Kreativer

PC Stable Diffusion Radiance CoreAI 32 RTX 5070 Ti

Radiance PC CoreAI 32 — RTX 5070 Ti 16 GB

CPU AMD Ryzen 9 9900X

GPU RTX 5070 Ti 16 GB GDDR7

RAM DDR5 32 GB

Speicher NVMe 1 TB

GPU-Bandbreite ~1.280 GB/s

OS Windows 11 Pro / Ubuntu

✅ SDXL ~3,5s/Bild · Flux Dev FP8 ~15s · SDXL LoRA-Training · Multi-Modell ControlNet

Die vielseitige Workstation für ernsthafte Illustratoren und Content-Ersteller. 1,9-mal höhere Bandbreite für flüssige Batch-Generierungen. 32 GB DDR5 6000 MHz für komplexe Multi-Modell-Workflows (ComfyUI + mehrere ControlNets + gleichzeitige LoRAs).

2 442 € ab

Natives SDXL LoRA-Training · Erweiterte ComfyUI-Workflows

Diese Workstation konfigurieren →

Absolute Referenz · 32 GB VRAM · Natives Flux 2

PC Stable Diffusion RTX 5090 32Go - Flux 2 Klein 9B

⭐ Radiance PC CoreAI 64 — RTX 5090 32 GB

CPU AMD Ryzen 9 9950X3D

GPU RTX 5090 32 GB GDDR7

RAM DDR5 64 GB

Speicher NVMe 1 TB

GPU-Bandbreite 1.792 GB/s

Netzteil 1.200 W 80+ Gold

✅ SDXL ~2,2s · Flux Dev FP16 ~7s · Flux 2 Klein 9B · Flux LoRA-Training · Unbegrenztes ControlNet

Die beste Consumer-Workstation für Stable Diffusion im Jahr 2026. 32 GB GDDR7 – die einzige Consumer-GPU, die Flux.2 Klein 9B in FP16 ausführen kann. Rekord-Bandbreite von 1.792 GB/s. Multi-Modell-Workflows, Batches von 4-8 Flux Dev-Bildern, natives Flux LoRA-Training. Bonus: Auch hervorragend für 4K-Gaming und Videobearbeitung geeignet.

6 042 € ab

Flux LoRA-Training · Alle ComfyUI-Workflows ohne Kompromisse

Diese Workstation konfigurieren →

Produktion · Bi-GPU · Batch-Generierung

Workstation Stable Diffusion double RTX 5090 - production batch génération

Radiance CoreAI Rack — 2× RTX 5090 (64 GB VRAM)

CPU AMD Ryzen 9 9950X3D

GPU 2× RTX 5090 32 GB

Gesamt-VRAM 64 GB GDDR7

RAM DDR5 128 GB

Format Rack 4U

Netzteil 2.000 W Platinum

✅ Massive Batch-Generierung · 2 gleichzeitige Modelle · Paralleles SDXL + Flux-Training

Für Studios, Kreativagenturen und professionelle Freelancer, die volumenintensive Produktionen durchführen. 2× unabhängige RTX 5090: eine GPU für die aktuelle Generierung, die andere für das LoRA-Training oder das Pre-Rendering des nächsten Batches. Keine Ausfallzeiten.

11 221 € ab

Studioproduktion · Parallele Pipelines · Rack 4U

Dieses Rack konfigurieren →

Pro Studio · ECC · 192 GB VRAM · Unbegrenztes Flux 2

Workstation IA générative pro RTX 6000 Blackwell ECC training Flux 2

CoreAI 128 Rack — 2× RTX 6000 PRO Blackwell (192 GB ECC)

CPU AMD Ryzen 9 9950X3D

GPU 2× RTX 6000 96 GB ECC

Gesamt-VRAM 192 GB ECC

RAM DDR5 128 GB

Format Rack 4U

Netzteil 2.000 W Platinum

✅ Flux 2 Klein 9B natives FP16 · Fine-Tuning von Basismodellen · KI-Video · 24/7 Produktion

Die ultimative Workstation für professionelle KI-Bildproduktionsstudios. 192 GB ECC-VRAM ermöglichen das vollständige Fine-Tuning von Basismodellen (nicht nur LoRAs), massive Flux-Batches und KI-Videogenerierung (Hunyuan, LTX-Video). Maximale Zuverlässigkeit für kontinuierliche Produktion.

27 980 € ab

Profi-Studios · Fine-Tuning von Basismodellen · Kontinuierliche Produktion

Dieses Rack konfigurieren →

Threadripper PRO · ECC · HPC Workstation

Workstation Threadripper PRO Stable Diffusion training pro

Radiance PC Pro AI Ultra Threadripper

CPU Threadripper PRO 7955WX 16c

GPU RTX 6000 Blackwell 96 GB

RAM ECC DDR5 128 GB RDIMM

Max. RAM Bis zu 2 TB ECC

Format Rack 4U

Netzteil 2.000 W Platinum

✅ Fine-Tuning · KI-Videogenerierung · HPC-Pipelines · Forschung / F&E

Für Forscher, VFX-Studios und KI-Agenturen, die alles tun: Bilderzeugung, KI-Video, Fine-Tuning, Forschung. Erweiterbare Threadripper PRO sTR5-Plattform mit bis zu 96 Kernen und 2 TB ECC-RAM. Die langlebige Maschine für über 5 Jahre.

20 213 € ab

Maßgeschneidert · Individuelles Angebot · Installation vor Ort

Angebot anfordern →

Welchen Stable Diffusion PC je nach Profil?

Profil	Konfiguration	Zielmodelle	Budget
Entdeckung / Hobby	CoreAI 16 RTX 5060 Ti 16 GB	SDXL, Flux Dev FP8	~1.700€
Freiberuflicher Illustrator	CoreAI 32 RTX 5070 Ti	SDXL + LoRA-Training, Flux FP8	~2.400€
Ernsthafter Kreativer / Profi ⭐	CoreAI 64 RTX 5090 32 GB	Flux Dev FP16, Flux 2, Flux LoRA-Training	~6.000€
Studio / Kreativagentur	Rack 2× RTX 5090	Batch-Produktion, paralleles Training	~11.000€
Profi-Studio / VFX	Rack 2× RTX 6000 ECC	Fine-Tuning Basis, KI-Video, Flux 2 9B	~28.000€

Häufig gestellte Fragen — PC für Stable Diffusion

Welche minimale GPU für Stable Diffusion im Jahr 2026?

Um SDXL komfortabel auszuführen, sind mindestens 12 GB VRAM erforderlich (RTX 5070 12 GB). Für Flux ist der Standard 2026 16 GB (RTX 5060 Ti 16 GB oder RTX 5070 Ti). 8-GB-Karten sind für ernsthafte KI-Bilderzeugung zu einem Engpass geworden – Sie werden ständig durch OOM-Fehler und Model-Offloading, das alles verlangsamt, eingeschränkt sein.

RTX 5090 vs RTX 4090 für Stable Diffusion?

Die RTX 5090 ist ca. 45 % schneller bei SDXL und ca. 55 % schneller bei Flux als die RTX 4090. Vor allem hat sie 32 GB gegenüber 24 GB VRAM – ein entscheidender Unterschied für Flux.2 Klein 9B, das 29 GB in FP16 benötigt und nur auf der 5090 läuft. Für reines SDXL ist die 4090 immer noch exzellent. Für Flux und die Zukunft ist die 5090 die nachhaltige Investition.

Kann man Stable Diffusion auf einer AMD GPU ausführen?

Technisch ja, über ROCm. In der Praxis: Die Leistung beträgt ca. 50-70 % einer äquivalenten NVIDIA, viele ComfyUI-Erweiterungen funktionieren nicht, und das LoRA-Training ist sehr eingeschränkt (bitsandbytes und Flash Attention haben keine ausgereifte AMD-Unterstützung). Für einen dedizierten Stable Diffusion PC im Jahr 2026 ist NVIDIA weiterhin obligatorisch.

Kann man Stable Diffusion auf einem Mac (Apple Silicon) ausführen?

Ja, über MPS (Metal Performance Shaders). Ein Mac M4 Pro mit 24 GB bewältigt Flux FP8 bequem, ein M4 Max mit 48-64 GB kann Flux FP16 ausführen. Die Geschwindigkeit ist jedoch 2 bis 4 Mal langsamer als bei einer äquivalenten NVIDIA, und das Training ist nahezu unmöglich. Für gelegentliche generative Aufgaben auf einem vorhandenen Mac: OK. Für eine dedizierte Investition: NVIDIA.

Was ist der Unterschied zwischen FP16, FP8 und GGUF für Flux?

FP16 ist die native Präzision des Modells, perfekte Qualität, ~33 GB VRAM für Flux. FP8 halbiert den VRAM (~16 GB für Flux Dev) mit einem nahezu unmerklichen Qualitätsverlust – das ist, was die meisten Benutzer 2026 verwenden. GGUF ist eine aggressivere Quantisierung (~10-13 GB für Flux) mit einer leichten sichtbaren Verschlechterung, nützlich, um Flux auf 12 GB VRAM zu bekommen.

Wie lange dauert die Generierung eines Bildes im Jahr 2026?

Auf einer RTX 5090: SDXL in ~2,2s, Flux Dev FP16 in ~7s, Flux 2 Klein 4B in weniger als 1s. Auf einer RTX 5060 Ti 16 GB: SDXL ~5s, Flux Dev FP8 ~28s. Auf einer RTX 5080: SDXL ~2,8s, Flux Dev ~11s. Für einen flüssigen interaktiven Workflow (schnelle Anpassung von Prompts) sollten Sie unter 10 Sekunden pro Bild anstreben.

Ist Windows oder Linux für Stable Diffusion besser?

Beide funktionieren. Linux (Ubuntu 24.04) bietet die beste Rohleistung und optimale CUDA-Unterstützung für ComfyUI. Windows 11 vereinfacht die tägliche Nutzung und funktioniert ebenfalls sehr gut. Unsere Workstations werden mit dem Betriebssystem Ihrer Wahl geliefert, ComfyUI installiert und mit den gewünschten Modellen konfiguriert.

Kann man KI-Videos (Hunyuan, LTX-Video) auf diesen PCs erstellen?

Ja. Hunyuan Video und LTX-Video sind mit ComfyUI kompatibel. Eine RTX 5090 32 GB generiert einige Sekunden lange Sequenzen in wenigen Minuten. Für ernsthafte KI-Videos sollten Sie mindestens eine RTX 5090 in Betracht ziehen, idealerweise das Rack mit 2× RTX 5090 oder die RTX 6000 ECC-Konfigurationen, die den für längere Sequenzen erforderlichen VRAM bieten.

Zurück zum Blog

Land/Region

Sprache

Warum Stable Diffusion 2026 so anspruchsvoll geworden ist?

Benötigter VRAM pro Modell (Referenz 2026)

Reale GPU-Benchmarks — IT/s auf Stable Diffusion im Jahr 2026

Jenseits der GPU: Was ebenfalls zählt

System-RAM — mindestens 32 GB, 64 GB empfohlen

Schnelle NVMe-SSD — große Modelle

CPU — weniger kritisch, aber nützlich

Netzteil — überdimensioniert

ComfyUI oder Automatic1111 im Jahr 2026?

Schnelle Installation von ComfyUI auf Ihrem PC

Der spezielle Fall des LoRA-Trainings

Unsere dedizierten PCs für Stable Diffusion / ComfyUI — in Frankreich zusammengebaut

Radiance PC CoreAI 16 — RTX 5060 Ti 16 GB

Radiance PC CoreAI 32 — RTX 5070 Ti 16 GB

⭐ Radiance PC CoreAI 64 — RTX 5090 32 GB

Radiance CoreAI Rack — 2× RTX 5090 (64 GB VRAM)

CoreAI 128 Rack — 2× RTX 6000 PRO Blackwell (192 GB ECC)

Radiance PC Pro AI Ultra Threadripper

Welchen Stable Diffusion PC je nach Profil?

Häufig gestellte Fragen — PC für Stable Diffusion

Welche minimale GPU für Stable Diffusion im Jahr 2026?

RTX 5090 vs RTX 4090 für Stable Diffusion?

Kann man Stable Diffusion auf einer AMD GPU ausführen?

Kann man Stable Diffusion auf einem Mac (Apple Silicon) ausführen?

Was ist der Unterschied zwischen FP16, FP8 und GGUF für Flux?

Wie lange dauert die Generierung eines Bildes im Jahr 2026?

Ist Windows oder Linux für Stable Diffusion besser?

Kann man KI-Videos (Hunyuan, LTX-Video) auf diesen PCs erstellen?

Entdecken Sie unser Sortiment an PCs für lokale KI

Ihr Angebot für eine maßgeschneiderte KI-Lösung innerhalb von 24–48 Stunden

Weitere Fragen?

Weitere Artikel