PC für Ollama 2026: Welche Hardware benötigen Sie, um Ihre LLMs lokal auszuführen?
Aktie
Ollama ist 2026 zum Standardwerkzeug für die lokale Ausführung von LLMs geworden — ein einziger Befehl zum Herunterladen eines Modells, eine OpenAI-kompatible API auf localhost:11434 und die Möglichkeit, Llama 4, Qwen 3.5, DeepSeek V4 oder Gemma 4 direkt auf dem eigenen Rechner auszuführen. Aber welchen PC braucht man, um wirklich brauchbare Leistungen zu erzielen? Dieser Leitfaden beantwortet diese Frage präzise, mit realen Benchmarks und getesteten Hardware-Empfehlungen.
Was ist Ollama und warum nutzen es 2026 alle?
Ollama ist eine Open-Source-LLM-Runtime, die KI-Modelle lokal herunterlädt, ausführt und bereitstellt – komplett auf Ihrem Rechner, ohne Cloud-Verbindung. Die Akzeptanz ist 2026 aus drei Gründen explosionsartig gestiegen:
- Ein einziger Befehl zum Starten. Keine komplexe Konfiguration, keine Verwaltung von Gewichten, Quantisierung oder zu kompilierenden Runtimes.
-
OpenAI-kompatible API. Jede für ChatGPT entwickelte Anwendung kann durch einfaches Ändern der URL auf Ollama umgestellt werden –
localhost:11434stattapi.openai.com. -
Bibliothek von über 500 Modellen. Llama 4 Scout, Qwen 3.5, DeepSeek V4, Gemma 4, Mistral, Phi-4, Qwen2.5-Coder – alle mit einem
ollama pull-Befehl verfügbar.
Die Installation ist eine Zeile lang:
curl -fsSL https://ollama.com/install.sh | sh ollama pull qwen3:14b ollama run qwen3:14b
In weniger als 5 Minuten haben Sie ein funktionsfähiges lokales LLM – zugänglich über Ihren Browser (via Open WebUI), über Ihren Code-Editor oder über jede Anwendung mittels der REST-API.
Der kritische Faktor für Ollama: VRAM
Ollama lädt die Modellgewichte in den GPU-Speicher. Wenn alles in den VRAM passt, erhalten Sie 40 bis 80 Token/Sekunde auf einer RTX 5060 Ti 16 GB. Wenn das Modell in den System-RAM ausgelagert wird, bricht die Leistung ein:
Fazit: Es ist besser, ein kleineres Modell zu wählen, das vollständig in den VRAM passt, als ein großes Modell, das überläuft. Ein Qwen 3.5 14B mit 60 Tok/s ist nützlicher als ein Llama 3.3 70B, das mit 4 Tok/s kriecht.
Benötigter VRAM je nach Ollama-Modell (Q4_K_M, Mai 2026)
| VRAM GPU | Kompatible Modelle | Beispiele 2026 | Ungefähre Geschwindigkeit |
|---|---|---|---|
| 5-8 GB | Bis zu 9B | Llama 3.1 8B, DeepSeek-R2 8B, Qwen3 8B, Gemma 3 4B | 40-90 Tok/s |
| 12 GB | Bis zu 17B MoE | Llama 4 Scout 17B, Gemma 3 12B | 30-50 Tok/s |
| 16 GB ⭐ Sweet Spot | 13B-14B dicht / 17B MoE | Qwen 3.5 14B, Mistral Medium 3.5, Phi-4 14B | 40-70 Tok/s |
| 20 GB | Bis zu 32B | Qwen2.5-Coder 32B, DeepSeek-R1 32B | 25-40 Tok/s |
| 24 GB | Bis zu 27B komfortabel | Gemma 4 26B QAT (85 Tok/s gemessen) | 30-60 Tok/s |
| 32 GB (RTX 5090) | Bis zu 70B in Q4 | Llama 3.3 70B (86.0 MMLU), Qwen 3.5 72B | 15-30 Tok/s |
| 48 GB+ (Multi-GPU) | 70B FP16 oder Q5/Q6 | Llama 3.3 70B FP16 mit 32K Kontext | 10-20 Tok/s |
| 128 GB Unified (GB10) | Modelle 200B+ | DeepSeek V4 Flash FP16, Llama 4 Maverick | 20-40 Tok/s |
Quellen: Echte Ollama-Benchmarks von Morph (April 2026), glukhov.org (RTX 4080 16 GB, März 2026), LocalAIMaster (März 2026). VRAM gemessen bei 8K-19K Kontext mit Q4_K_M-Quantisierung. Die tatsächlichen Werte variieren je nach geladenem Kontext.
Die besten Ollama-Modelle im Mai 2026 nach Kategorie
| Kategorie | Empfohlenes Modell | Ollama-Befehl | VRAM |
|---|---|---|---|
| Allround-Allrounder | Llama 4 Scout 17B | ollama pull llama4:scout |
~10 GB |
| Deutsch / mehrsprachig | Qwen 3.5 14B | ollama pull qwen3.5:14b |
~10 GB |
| Reine Geschwindigkeit (85 Tok/s) | Gemma 4 26B QAT | ollama pull gemma4:26b |
~14 GB |
| Code ⭐ #1 Open Source | Qwen2.5-Coder 32B | ollama pull qwen2.5-coder:32b |
~20 GB |
| Mathematik/Logik-Argumentation | DeepSeek-R2 8B | ollama pull deepseek-r2:8b |
~5 GB |
| STEM / strukturierte Analyse | Phi-4 14B (80.4% MATH) | ollama pull phi4 |
~10 GB |
| Klein / leicht | Llama 3.1 8B (111M+ Downloads) | ollama pull llama3.1:8b |
~5 GB |
| Maximale Qualität | Llama 3.3 70B (86.0 MMLU) | ollama pull llama3.3:70b |
~40 GB |
Jenseits der GPU: Was bei Ollama auch zählt
System-RAM (DDR5 >> DDR4)
Wenn Ihr Modell in den System-RAM ausgelagert wird, hängt seine Geschwindigkeit direkt von der Speicherbandbreite ab. DDR5-6000 bietet 15-25% mehr Leistung als DDR4-3200 im CPU-Offloading-Modus. Für Ollama sollten Sie mindestens 32 GB DDR5 auf einer AM5-Plattform bevorzugen.
Schnelle NVMe SSD
Ollama-Modelle wiegen zwischen 5 GB (Llama 3.1 8B) und 40 GB (Llama 3.3 70B). Eine NVMe Gen 4 SSD lädt ein 14B-Modell beim ersten ollama run in 5-8 Sekunden. Auf einer SATA SSD dauert es 30-60 Sekunden.
CPU und Threads
Für reine GPU-Inferenz ist die CPU kaum relevant. Sobald jedoch CPU-Offloading oder RAG (Retrieval Augmented Generation) ins Spiel kommen, macht ein Ryzen 7 oder 9 mit 12-16 Kernen einen Unterschied. AVX-512 (Intel 12. Gen+, AMD Zen 4+) beschleunigt die CPU-Inferenz um 10-20%.
Wesentliche Ollama-Befehle
# Ollama installieren (Linux/macOS) curl -fsSL https://ollama.com/install.sh | sh # Modell herunterladen und starten ollama pull qwen3.5:14b ollama run qwen3.5:14b # Installierte Modelle auflisten ollama list # Modell stoppen (VRAM freigeben) ollama stop qwen3.5:14b # GPU/CPU-Nutzung anzeigen OLLAMA_DEBUG=1 ollama run llama3.1:8b "test" 2>&1 | grep "layers" # Eine bestimmte Anzahl von GPU-Layern erzwingen ollama run llama3.1:8b --gpu-layers 28
Häufige Fehler, die es zu vermeiden gilt
- Q2_K wählen, um ein großes Modell unterzubringen – starke Qualitätsminderung. Ein 34B-Modell in Q6_K ist besser als ein 70B-Modell in Q2_K.
- KV-Cache ignorieren – ein 8B-Modell mit 32K Kontext benötigt ~4,5 GB zusätzlichen Speicher für den Aufmerksamkeits-Cache. Lassen Sie 2-4 GB VRAM-Puffer.
-
Mehrere Modelle gleichzeitig laden – Ollama behält sie standardmäßig im VRAM. Verwenden Sie
ollama stop, um sie freizugeben. - RAM unterschätzen – mindestens 32 GB DDR5 für ernsthaften Gebrauch. 64 GB für Modelle über 30B mit CPU-Offloading.
Unsere für Ollama optimierten PCs – vorkonfiguriert mit Ollama + Open WebUI
Radiance Systems entwickelt Workstations, die auf lokale LLM-Inferenz spezialisiert sind. Jede Maschine wird mit vorinstalliertem und auf Wunsch konfiguriertem Ollama und Open WebUI geliefert, wobei die von Ihnen gewählten Modelle bereits heruntergeladen sind. Sie starten Ihren PC und sprechen in weniger als 2 Minuten mit Ihrer KI.
Mini-KI-Server NVIDIA GB10 — ASUS Ascent GX10
✅ Llama 4 Maverick FP16 · DeepSeek V4 Flash FP16 · Modelle bis zu 200B Parameter
Das einzige Desktop-System, das Modelle ausführen kann, die selbst eine RTX 5090 nicht im VRAM halten kann. 128 GB Unified Memory, GPU und CPU über NVLink-C2C mit 900 GB/s verbunden. Ideal für eine Kanzlei, die maximale Kapazität in einem ultrakompakten und leisen Format benötigt.
Betriebsbereit geliefert · DGX OS · natives Ollama
Diesen Server konfigurieren →
Radiance PC CoreAI 16 — RTX 5060 Ti 16 GB
✅ Qwen 3.5 14B · Mistral Medium 3.5 · Llama 4 Scout 17B · Phi-4 14B
Gemessene Geschwindigkeit: 40-70 Token/Sekunde
Der Sweet Spot 2026 für Ollama. 16 GB GDDR7, um 14B-Modelle vollständig auf der GPU ohne CPU-Offloading auszuführen. AM5 DDR5-Plattform für RAG-Pipelines. Idealer Einstiegspunkt für Freiberufler.
Ollama + Open WebUI auf Anfrage vorinstalliert
Diese Workstation konfigurieren →
Radiance PC CoreAI 32 — RTX 5070 Ti 16 GB
✅ Qwen2.5-Coder 32B (92,7% HumanEval) · Gemma 4 26B · DeepSeek-R1 32B
Gemessene Geschwindigkeit: 25-45 Token/Sekunde
Für anspruchsvolle Entwickler und Profis. 1,9-mal höhere Speicherbandbreite als die RTX 5060 Ti, ideal für 27B-32B-Modelle. Der Ryzen 9 9900X verwaltet RAG-Pipelines und n8n-Orchestrierung parallel.
Modelle auf Anfrage vorinstalliert (Qwen3.5, Mistral, DeepSeek)
Diese Workstation konfigurieren →
Radiance PC CoreAI 64 — RTX 5090 32 GB
✅ Llama 3.3 70B Q4 (86.0 MMLU) · Qwen 3.5 72B · DeepSeek V4 Flash
Gemessene Geschwindigkeit: 15-30 Token/Sekunde bei 70B
Die beste Consumer-GPU für Ollama im Jahr 2026. 1.792 GB/s Speicherbandbreite – Rekord auf dem Consumer-Markt. Llama 3.3 70B Q4 vollständig auf der GPU, nahezu identische Leistung wie GPT-4o bei den meisten Aufgaben.
Leichtes Fine-Tuning möglich · LoRA kompatibel
Diese Workstation konfigurieren →
Radiance CoreAI Rack — 2× RTX 5090 (64 GB VRAM)
✅ Llama 3.3 70B FP16 · Qwen 3.5 235B Q4 · Gleichzeitige Multi-GPU-Inferenz
Für Teams von 5 bis 20 Benutzern, die einen Ollama-Server teilen. Gleichzeitige Inferenz auf zwei unabhängigen GPUs – jeder Benutzer hat seinen dedizierten Stream. Ideal für Kanzleien mit mehreren Mitarbeitern.
Maßgeschneidert · 4U Rack · Ollama Multi-Tenant Server
Dieses Rack konfigurieren →
CoreAI 128 Rack — 2× RTX 6000 PRO Blackwell (192 GB ECC)
✅ Alle Ollama-Modelle in nativer Präzision · Fine-Tuning 70B+ · 24/7 Produktion
Professionelle GPUs mit ECC-Speicher für kontinuierliche Produktion. 192 GB ECC-VRAM ermöglichen die Ausführung der größten Open-Source-Modelle in nativer Präzision (FP16). Maximale Zuverlässigkeit für kritische Umgebungen.
Installation vor Ort möglich · Dedizierter Support
Dieses Rack konfigurieren →
Radiance PC Pro AI Ultra Threadripper
✅ Verteiltes Training · Massive RAG-Pipelines · HPC · Intensives Fine-Tuning
Die ultimative Workstation für anspruchsvolle Produktionsumgebungen. Threadripper PRO sTR5-Plattform, erweiterbar auf bis zu 96 Kerne und 2 TB ECC RAM. Für gemischte Lasten: Ollama + Vektor-Datenbanken + n8n-Orchestrierung + Training.
Maßgeschneidert · Individuelles Angebot · Installation vor Ort
Angebot anfordern →Welcher PC für Ollama passt zu Ihrem Profil?
| Profil | Konfiguration | Typisches Ollama-Modell | Budget |
|---|---|---|---|
| Entdeckung / kleiner persönlicher Gebrauch | RTX 5060 Ti 16 GB (CoreAI 16) | Qwen 3.5 14B, Llama 4 Scout | ~1.700€ |
| Kompakte Freiberufler-Kanzlei ⭐ | ASUS Ascent GX10 (GB10) | DeepSeek V4 Flash FP16, 200B+ | ~4.000€ |
| Entwickler / Datenwissenschaftler | CoreAI 32 RTX 5070 Ti | Qwen2.5-Coder 32B, DeepSeek-R1 32B | ~2.400€ |
| 70B-Modelle lokal | CoreAI 64 RTX 5090 | Llama 3.3 70B Q4 | ~6.000€ |
| Team 5-20 gemeinsame Nutzer | Rack 2× RTX 5090 | Llama 3.3 70B FP16, Multi-Tenant | ~11.000€ |
| Kritische 24/7 Produktion | Rack 2× RTX 6000 ECC | Alle Modelle, natives FP16 | ~28.000€ |
Ollama Anwendungsfälle nach Beruf
- Anwälte & Notare — Qwen 3.5 14B + Open WebUI: Vertragsanalyse, Suche in Klientendossiers, Aktenerstellung. Alles lokal, DSGVO- und Berufsgeheimnis-konform.
- Ärzte & Kliniken — Mistral Medium 3.5 + RAG: diktierte Berichte, Analyse von Patientenakten, medizinische Dokumentenbasis. Keine Daten gelangen auf einen Cloud-Server.
- Wirtschaftsprüfer — DeepSeek-R2 8B + Phi-4 14B: Bilanzanalyse, Anomalieerkennung, Berichtsgenerierung. Vertrauliche Zahlen werden niemals hochgeladen.
- Entwickler — Qwen2.5-Coder 32B + Ollama API: Code-Vervollständigung in VS Code/Cursor, Debugging, Refactoring. OpenAI-kompatible API, Integration in 3 Zeilen.
- KMU & Unternehmen — Llama 4 Scout + n8n + Vektor-Datenbank: Interner KI-Assistent, verbunden mit Ihren Dokumenten, Prozessen, CRM. Bereitstellung im privaten Netzwerk.
Häufig gestellte Fragen — PC für Ollama
Welche Mindest-GPU für Ollama?
8 GB VRAM (RTX 4060, RTX 5060) reichen für 7-8B-Modelle wie Llama 3.1 8B oder DeepSeek-R2 8B. Aber der Sweet Spot 2026 sind 16 GB VRAM (RTX 5060 Ti 16 GB oder RTX 5070 Ti) — Sie erhalten Zugang zu 13-14B-Modellen und 17B MoE-Modellen wie Qwen 3.5 14B, Mistral Medium 3.5 oder Llama 4 Scout, die eine deutlich höhere Qualität für nur 200-400€ Preisunterschied bei der GPU bieten.
Funktioniert Ollama ohne dedizierte GPU?
Ja, Ollama kann nur auf der CPU laufen. Aber die Geschwindigkeiten fallen bei einem 7B-Modell mit einer modernen CPU auf 3-8 Tokens/Sekunde – frustrierend für den interaktiven Gebrauch. Eine GPU mit 8 GB+ VRAM wird dringend empfohlen für ein flüssiges Erlebnis (30+ Tokens/Sekunde).
Wie erkenne ich, ob mein Modell in den VRAM passt?
Starten Sie OLLAMA_DEBUG=1 ollama run [Modell] "test" — die Logs zeigen an, wie viele Schichten auf der GPU vs. CPU geladen werden. Wenn weniger als 100% auf der GPU sind, ist Ihr Modell zu groß. Wählen Sie eine niedrigere Quantisierung (mindestens Q4_K_M) oder ein kleineres Modell.
Benötigt man Windows oder Linux für Ollama?
Beide funktionieren sehr gut. Linux (Ubuntu) bietet die beste Rohleistung und optimale CUDA-Unterstützung. Windows 11 vereinfacht die tägliche Nutzung und ist mit WSL2 für Entwickler kompatibel. Unsere Workstations werden mit dem Betriebssystem Ihrer Wahl geliefert.
Welche Benutzeroberfläche soll ich mit Ollama verwenden?
Open WebUI ist die beliebteste Web-Oberfläche im Jahr 2026 — ChatGPT-ähnlich, über Docker bereitstellbar, native Verwaltung von Dokumenten-RAG. LM Studio bietet eine Desktop-Alternative mit integrierter GUI. Unsere Radiance-PCs können mit einer der beiden Optionen vorinstalliert geliefert werden, je nach Ihrer Präferenz.
Kann man Fine-Tuning auf diesen Ollama-PCs durchführen?
LoRA (parameter-effizientes) Fine-Tuning ist ab 16 GB VRAM für 7B-8B-Modelle möglich. Für ernsthaftes Fine-Tuning bei 14B-32B-Modellen benötigt man 24 GB+ (CoreAI 32 oder höher). Für 70B+-Modelle rechnen Sie mit 48 GB+ mit Multi-GPU.




