PC für Stable Diffusion 2026: Welche GPU für Flux, SDXL und ComfyUI?
Aktie
Möchten Sie 2026 einen PC für Stable Diffusion zusammenstellen? Das Ökosystem der KI-Bilderzeugung ist explodiert: Flux.1 Dev, Flux.2, SD 3.5 Large, SDXL, Qwen Image sind heute unverzichtbare kreative Werkzeuge für Illustratoren, Fotografen, Designer und Content-Ersteller. Doch hinter der Magie verbirgt sich eine technische Realität: VRAM ist der entscheidende Faktor, viel mehr als die reine GPU-Leistung. Dieser Leitfaden erklärt Ihnen genau, welche Hardware Sie je nach Anwendung, bevorzugtem Modell und Budget wählen sollten.
Warum Stable Diffusion 2026 so anspruchsvoll geworden ist?
Im Jahr 2024 reichte eine GPU mit 8 GB VRAM für SD 1.5 und sogar SDXL locker aus. Im Jahr 2026 hat sich das Spiel mit der Einführung von Flux (Black Forest Labs) und SD 3.5 Large (Stability AI) radikal geändert:
- Flux.1 Dev: 12B Parameter, benötigt mindestens 12-16 GB VRAM bei 1024×1024 in FP16
- Flux.2 Dev (Januar 2026): 4B (13 GB VRAM) und 9B (29 GB VRAM) Modelle
- SD 3.5 Large: MMDiT-Architektur, ~12 GB in FP16, ~7 GB in FP8
- SDXL: 6-8 GB in FP16, immer noch das Arbeitspferd der Mittelklasse
- SD 1.5: läuft auf allem (4 GB reichen aus)
Benötigter VRAM pro Modell (Referenz 2026)
| Modell | Natives FP16 | Quantisiertes FP8 | Anwendungsfall |
|---|---|---|---|
| SD 1.5 | ~4 GB | N/A | Anime-Stil, schnelles Prototyping |
| SDXL 1.0 | 7-8 GB | N/A (bereits kompakt) | Vielseitiger Standard · Pony / Illustrious |
| SD 3.5 Medium | ~6 GB | ~4 GB | Besserer Text als SDXL |
| SD 3.5 Large | ~12 GB (knapp) | ~7 GB (komfortabel) | Fotoqualität, präziser Text |
| Flux.1 Dev ⭐ | ~16 GB | ~13 GB | Qualitätsreferenz 2026 · perfekter Text |
| Flux.1 Schnell | ~14 GB | ~10 GB | 4 Schritte · ultraschnell · Batch-Verarbeitung |
| Flux.2 Klein 4B (Jan. 2026) | ~13 GB | ~9 GB | Sub-1s auf High-End · Produktion |
| Flux.2 Klein 9B (Jan. 2026) | ~29 GB | ~18 GB | Nur RTX 5090 (FP16) |
| Qwen Image | ~14-16 GB | ~10 GB | Top Textqualität Chinesisch/Englisch |
Quellen: WillItRunAI (April 2026), Compute-Market (April 2026), SolidAITech (Mai 2026). VRAM gemessen bei 1024×1024, Batch 1, Modell + VAE + Text-Encoder + Arbeitsspeicher.
Reale GPU-Benchmarks — IT/s auf Stable Diffusion im Jahr 2026
| GPU | VRAM | SDXL 1024px | Flux Dev 1024px | Urteil 2026 |
|---|---|---|---|---|
| RTX 5060 Ti 8 GB | 8 GB | ~7 s | ❌ OOM in FP16 | Für SD zu vermeiden |
| RTX 5060 Ti 16 GB ⭐ | 16 GB | ~5 s | ~28 s (FP8) | ✅ Einsteiger-Sweetspot |
| RTX 5070 Ti 16 GB | 16 GB | ~3,5 s | ~15 s (FP8) | ✅ Gute Balance |
| RTX 5080 16 GB | 16 GB | ~2,8 s | ~11 s | ✅ Top Mittelklasse |
| RX 9070 XT 16 GB | 16 GB | ~5,5 s | ⚠️ Begrenzt (ROCm) | ⚠️ Ohne Training |
| RTX 5090 32 GB ⭐ | 32 GB | ~2,2 s | ~7 s (natives FP16) | ✅ Absolute Referenz |
| RTX 6000 Pro 96 GB ECC | 96 GB ECC | ~3 s | ~9 s | ✅ Pro / Flux 2 Training |
Quellen: DatabaseMart, FormulaMod (April 2026), Compute-Market (April 2026), ComfyUI Community Benchmarks. Messungen in ComfyUI bei 1024×1024, 20-28 Schritte, Batch 1.
Jenseits der GPU: Was ebenfalls zählt
System-RAM — mindestens 32 GB, 64 GB empfohlen
Für ComfyUI mit mehreren geladenen Modellen, ControlNet-Erweiterungen und LoRAs sind 32 GB DDR5 das praktische Minimum. 64 GB bieten echten Komfort für komplexe Multi-Modell-Workflows. DDR5-6000 verbessert die anfängliche Ladezeit von Checkpoints erheblich.
Schnelle NVMe-SSD — große Modelle
Ein Flux-Checkpoint wiegt 24 GB in FP16, ein SDXL-Checkpoint wiegt 7 GB, und eine vollständige Sammlung erreicht schnell 300-500 GB (Basismodelle + feinabgestimmte Checkpoints + LoRAs + ControlNets). Rechnen Sie mit mindestens 1 TB NVMe Gen 4, 2 TB für ernsthafte Benutzer. Eine langsame SSD macht einen Modellwechsel zu einer Kaffeepause.
CPU — weniger kritisch, aber nützlich
Die Stable Diffusion-Inferenz ist größtenteils GPU-basiert. Ein aktueller Ryzen 5 oder Ryzen 7 reicht völlig aus. Für komplexe Workflows (gleichzeitiges ComfyUI + Krita + DaVinci Resolve) bietet ein Ryzen 9 9900X oder 9950X3D Komfort.
Netzteil — überdimensioniert
Die RTX 5090 verbraucht Spitzenwerte von bis zu 575 W. Mit einem Ryzen 9 rechnen Sie mit mindestens 1.200 W 80+ Gold. Für Dual-GPU 2.000 W Platinum. Sparen Sie nicht am Netzteil – es ist das Teil, das alle Komponenten im Falle eines Ausfalls zerstören kann.
ComfyUI oder Automatic1111 im Jahr 2026?
Für einen neuen PC im Jahr 2026 ist die Wahl klar geworden:
- ComfyUI — empfohlen. Knotenbasierte Architektur, effizientes Speichermanagement (Laden/Entladen bei Bedarf), TensorRT-Unterstützung für +30-60% Geschwindigkeit, riesige Community, native Unterstützung für Flux/SD3.5/Qwen, unterstützt quantisierte FP8- und GGUF-Modelle nativ.
- Forge UI (A1111-Fork) — valable Alternative, einfacher zu erlernen. Exzellentes VRAM-Management, unterstützt Flux.
- Automatic1111 — historisch, einfach, wird aber veraltet. Neigt dazu, mehr VRAM zu behalten, kann bei komplexen Workflows abstürzen.
- InvokeAI / Krita AI — für integrierte Illustrations- / Fotobearbeitungs-Workflows.
Schnelle Installation von ComfyUI auf Ihrem PC
# ComfyUI klonen git clone https://github.com/comfyanonymous/ComfyUI cd ComfyUI # PyTorch mit CUDA-Unterstützung installieren pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128 # Abhängigkeiten installieren pip install -r requirements.txt # Ein Modell herunterladen (Beispiel: Flux.1 Dev FP8) # In ComfyUI/models/diffusion_models/ platzieren # ComfyUI starten python main.py
--use-pytorch-cross-attention beim Start von ComfyUI, um 15-25% VRAM auf Blackwell-Architekturen (RTX 50xx) zu sparen. TensorRT-Beschleunigung kann die Leistung bei repetitiven Workflows um +30-60% steigern.Der spezielle Fall des LoRA-Trainings
Bilder zu generieren ist eine Sache. Das Trainieren eigener LoRAs (persönlicher Stil, wiederkehrender Charakter, Produkt für E-Commerce-Fotos) erfordert deutlich mehr VRAM:
| Basismodell | Minimal-VRAM | Komfort-VRAM | Dauer (30 Bilder) |
|---|---|---|---|
| SD 1.5 LoRA | 8 GB | 12 GB | 30-60 min |
| SDXL LoRA | 12 GB (knapp) | 16-24 GB | 1-3 Std. (je nach GPU) |
| SD 3.5 Large LoRA | 16 GB (FP8) | 24 GB | 2-4 Std. |
| Flux.1 LoRA | 24 GB | 32 GB | 3-6 h |
| Flux.2 LoRA | 32 GB | 48-96 GB | 4-8 h |
Unsere dedizierten PCs für Stable Diffusion / ComfyUI — in Frankreich zusammengebaut
Radiance Systems entwickelt Workstations, die speziell für die KI-Bilderzeugung und das Training von LoRAs konfiguriert sind. ComfyUI + gängige Modelle (SDXL, Flux Dev FP8, ControlNets) auf Anfrage vorinstalliert. Sie starten Ihren PC und generieren Ihr erstes Bild in weniger als 2 Minuten.
Radiance PC CoreAI 16 — RTX 5060 Ti 16 GB
✅ Natives SDXL (~5s/Bild) · Flux Dev FP8 (~28s) · SD 3.5 Medium · SD 1.5 LoRA-Training
Der ideale Einstiegspunkt für Stable Diffusion im Jahr 2026. 16 GB GDDR7 – das praktischste Minimum – um SDXL bequem und Flux in FP8 ohne OOM auszuführen. Skalierbare AM5-Plattform: Möglichkeit zum späteren GPU-Upgrade.
ComfyUI + SDXL + Flux Dev FP8 vorinstallierbar
Diese Workstation konfigurieren →
Radiance PC CoreAI 32 — RTX 5070 Ti 16 GB
✅ SDXL ~3,5s/Bild · Flux Dev FP8 ~15s · SDXL LoRA-Training · Multi-Modell ControlNet
Die vielseitige Workstation für ernsthafte Illustratoren und Content-Ersteller. 1,9-mal höhere Bandbreite für flüssige Batch-Generierungen. 32 GB DDR5 6000 MHz für komplexe Multi-Modell-Workflows (ComfyUI + mehrere ControlNets + gleichzeitige LoRAs).
Natives SDXL LoRA-Training · Erweiterte ComfyUI-Workflows
Diese Workstation konfigurieren →
⭐ Radiance PC CoreAI 64 — RTX 5090 32 GB
✅ SDXL ~2,2s · Flux Dev FP16 ~7s · Flux 2 Klein 9B · Flux LoRA-Training · Unbegrenztes ControlNet
Die beste Consumer-Workstation für Stable Diffusion im Jahr 2026. 32 GB GDDR7 – die einzige Consumer-GPU, die Flux.2 Klein 9B in FP16 ausführen kann. Rekord-Bandbreite von 1.792 GB/s. Multi-Modell-Workflows, Batches von 4-8 Flux Dev-Bildern, natives Flux LoRA-Training. Bonus: Auch hervorragend für 4K-Gaming und Videobearbeitung geeignet.
Flux LoRA-Training · Alle ComfyUI-Workflows ohne Kompromisse
Diese Workstation konfigurieren →
Radiance CoreAI Rack — 2× RTX 5090 (64 GB VRAM)
✅ Massive Batch-Generierung · 2 gleichzeitige Modelle · Paralleles SDXL + Flux-Training
Für Studios, Kreativagenturen und professionelle Freelancer, die volumenintensive Produktionen durchführen. 2× unabhängige RTX 5090: eine GPU für die aktuelle Generierung, die andere für das LoRA-Training oder das Pre-Rendering des nächsten Batches. Keine Ausfallzeiten.
Studioproduktion · Parallele Pipelines · Rack 4U
Dieses Rack konfigurieren →
CoreAI 128 Rack — 2× RTX 6000 PRO Blackwell (192 GB ECC)
✅ Flux 2 Klein 9B natives FP16 · Fine-Tuning von Basismodellen · KI-Video · 24/7 Produktion
Die ultimative Workstation für professionelle KI-Bildproduktionsstudios. 192 GB ECC-VRAM ermöglichen das vollständige Fine-Tuning von Basismodellen (nicht nur LoRAs), massive Flux-Batches und KI-Videogenerierung (Hunyuan, LTX-Video). Maximale Zuverlässigkeit für kontinuierliche Produktion.
Profi-Studios · Fine-Tuning von Basismodellen · Kontinuierliche Produktion
Dieses Rack konfigurieren →
Radiance PC Pro AI Ultra Threadripper
✅ Fine-Tuning · KI-Videogenerierung · HPC-Pipelines · Forschung / F&E
Für Forscher, VFX-Studios und KI-Agenturen, die alles tun: Bilderzeugung, KI-Video, Fine-Tuning, Forschung. Erweiterbare Threadripper PRO sTR5-Plattform mit bis zu 96 Kernen und 2 TB ECC-RAM. Die langlebige Maschine für über 5 Jahre.
Maßgeschneidert · Individuelles Angebot · Installation vor Ort
Angebot anfordern →Welchen Stable Diffusion PC je nach Profil?
| Profil | Konfiguration | Zielmodelle | Budget |
|---|---|---|---|
| Entdeckung / Hobby | CoreAI 16 RTX 5060 Ti 16 GB | SDXL, Flux Dev FP8 | ~1.700€ |
| Freiberuflicher Illustrator | CoreAI 32 RTX 5070 Ti | SDXL + LoRA-Training, Flux FP8 | ~2.400€ |
| Ernsthafter Kreativer / Profi ⭐ | CoreAI 64 RTX 5090 32 GB | Flux Dev FP16, Flux 2, Flux LoRA-Training | ~6.000€ |
| Studio / Kreativagentur | Rack 2× RTX 5090 | Batch-Produktion, paralleles Training | ~11.000€ |
| Profi-Studio / VFX | Rack 2× RTX 6000 ECC | Fine-Tuning Basis, KI-Video, Flux 2 9B | ~28.000€ |
Häufig gestellte Fragen — PC für Stable Diffusion
Welche minimale GPU für Stable Diffusion im Jahr 2026?
Um SDXL komfortabel auszuführen, sind mindestens 12 GB VRAM erforderlich (RTX 5070 12 GB). Für Flux ist der Standard 2026 16 GB (RTX 5060 Ti 16 GB oder RTX 5070 Ti). 8-GB-Karten sind für ernsthafte KI-Bilderzeugung zu einem Engpass geworden – Sie werden ständig durch OOM-Fehler und Model-Offloading, das alles verlangsamt, eingeschränkt sein.
RTX 5090 vs RTX 4090 für Stable Diffusion?
Die RTX 5090 ist ca. 45 % schneller bei SDXL und ca. 55 % schneller bei Flux als die RTX 4090. Vor allem hat sie 32 GB gegenüber 24 GB VRAM – ein entscheidender Unterschied für Flux.2 Klein 9B, das 29 GB in FP16 benötigt und nur auf der 5090 läuft. Für reines SDXL ist die 4090 immer noch exzellent. Für Flux und die Zukunft ist die 5090 die nachhaltige Investition.
Kann man Stable Diffusion auf einer AMD GPU ausführen?
Technisch ja, über ROCm. In der Praxis: Die Leistung beträgt ca. 50-70 % einer äquivalenten NVIDIA, viele ComfyUI-Erweiterungen funktionieren nicht, und das LoRA-Training ist sehr eingeschränkt (bitsandbytes und Flash Attention haben keine ausgereifte AMD-Unterstützung). Für einen dedizierten Stable Diffusion PC im Jahr 2026 ist NVIDIA weiterhin obligatorisch.
Kann man Stable Diffusion auf einem Mac (Apple Silicon) ausführen?
Ja, über MPS (Metal Performance Shaders). Ein Mac M4 Pro mit 24 GB bewältigt Flux FP8 bequem, ein M4 Max mit 48-64 GB kann Flux FP16 ausführen. Die Geschwindigkeit ist jedoch 2 bis 4 Mal langsamer als bei einer äquivalenten NVIDIA, und das Training ist nahezu unmöglich. Für gelegentliche generative Aufgaben auf einem vorhandenen Mac: OK. Für eine dedizierte Investition: NVIDIA.
Was ist der Unterschied zwischen FP16, FP8 und GGUF für Flux?
FP16 ist die native Präzision des Modells, perfekte Qualität, ~33 GB VRAM für Flux. FP8 halbiert den VRAM (~16 GB für Flux Dev) mit einem nahezu unmerklichen Qualitätsverlust – das ist, was die meisten Benutzer 2026 verwenden. GGUF ist eine aggressivere Quantisierung (~10-13 GB für Flux) mit einer leichten sichtbaren Verschlechterung, nützlich, um Flux auf 12 GB VRAM zu bekommen.
Wie lange dauert die Generierung eines Bildes im Jahr 2026?
Auf einer RTX 5090: SDXL in ~2,2s, Flux Dev FP16 in ~7s, Flux 2 Klein 4B in weniger als 1s. Auf einer RTX 5060 Ti 16 GB: SDXL ~5s, Flux Dev FP8 ~28s. Auf einer RTX 5080: SDXL ~2,8s, Flux Dev ~11s. Für einen flüssigen interaktiven Workflow (schnelle Anpassung von Prompts) sollten Sie unter 10 Sekunden pro Bild anstreben.
Ist Windows oder Linux für Stable Diffusion besser?
Beide funktionieren. Linux (Ubuntu 24.04) bietet die beste Rohleistung und optimale CUDA-Unterstützung für ComfyUI. Windows 11 vereinfacht die tägliche Nutzung und funktioniert ebenfalls sehr gut. Unsere Workstations werden mit dem Betriebssystem Ihrer Wahl geliefert, ComfyUI installiert und mit den gewünschten Modellen konfiguriert.
Kann man KI-Videos (Hunyuan, LTX-Video) auf diesen PCs erstellen?
Ja. Hunyuan Video und LTX-Video sind mit ComfyUI kompatibel. Eine RTX 5090 32 GB generiert einige Sekunden lange Sequenzen in wenigen Minuten. Für ernsthafte KI-Videos sollten Sie mindestens eine RTX 5090 in Betracht ziehen, idealerweise das Rack mit 2× RTX 5090 oder die RTX 6000 ECC-Konfigurationen, die den für längere Sequenzen erforderlichen VRAM bieten.




