PC für Ollama 2026: Welche Hardware benötigen Sie, um Ihre LLMs lokal auszuführen?


Ollama ist 2026 zum Standardwerkzeug für die lokale Ausführung von LLMs geworden — ein einziger Befehl zum Herunterladen eines Modells, eine OpenAI-kompatible API auf localhost:11434 und die Möglichkeit, Llama 4, Qwen 3.5, DeepSeek V4 oder Gemma 4 direkt auf dem eigenen Rechner auszuführen. Aber welchen PC braucht man, um wirklich brauchbare Leistungen zu erzielen? Dieser Leitfaden beantwortet diese Frage präzise, mit realen Benchmarks und getesteten Hardware-Empfehlungen.


Was ist Ollama und warum nutzen es 2026 alle?

Ollama ist eine Open-Source-LLM-Runtime, die KI-Modelle lokal herunterlädt, ausführt und bereitstellt – komplett auf Ihrem Rechner, ohne Cloud-Verbindung. Die Akzeptanz ist 2026 aus drei Gründen explosionsartig gestiegen:

  • Ein einziger Befehl zum Starten. Keine komplexe Konfiguration, keine Verwaltung von Gewichten, Quantisierung oder zu kompilierenden Runtimes.
  • OpenAI-kompatible API. Jede für ChatGPT entwickelte Anwendung kann durch einfaches Ändern der URL auf Ollama umgestellt werden – localhost:11434 statt api.openai.com.
  • Bibliothek von über 500 Modellen. Llama 4 Scout, Qwen 3.5, DeepSeek V4, Gemma 4, Mistral, Phi-4, Qwen2.5-Coder – alle mit einem ollama pull-Befehl verfügbar.

Die Installation ist eine Zeile lang:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3:14b
ollama run qwen3:14b

In weniger als 5 Minuten haben Sie ein funktionsfähiges lokales LLM – zugänglich über Ihren Browser (via Open WebUI), über Ihren Code-Editor oder über jede Anwendung mittels der REST-API.


Der kritische Faktor für Ollama: VRAM

Ollama lädt die Modellgewichte in den GPU-Speicher. Wenn alles in den VRAM passt, erhalten Sie 40 bis 80 Token/Sekunde auf einer RTX 5060 Ti 16 GB. Wenn das Modell in den System-RAM ausgelagert wird, bricht die Leistung ein:

⚠️ Die VRAM-Überlauf-Falle: Laut Benchmarks von LocalLLM.in (Februar 2026) fällt ein Qwen 3 8B-Modell von 40 Tok/s bei vollem VRAM auf nur 8 Tok/s, wenn 11 der 36 Schichten in den RAM ausgelagert werden müssen — ein Rückgang um das Fünffache. Bei schwereren Modellen kann die Verlangsamung das 30-fache erreichen. Der Engpass ist die PCIe-Bandbreite zwischen System-RAM und VRAM.

Fazit: Es ist besser, ein kleineres Modell zu wählen, das vollständig in den VRAM passt, als ein großes Modell, das überläuft. Ein Qwen 3.5 14B mit 60 Tok/s ist nützlicher als ein Llama 3.3 70B, das mit 4 Tok/s kriecht.


Benötigter VRAM je nach Ollama-Modell (Q4_K_M, Mai 2026)

VRAM GPU Kompatible Modelle Beispiele 2026 Ungefähre Geschwindigkeit
5-8 GB Bis zu 9B Llama 3.1 8B, DeepSeek-R2 8B, Qwen3 8B, Gemma 3 4B 40-90 Tok/s
12 GB Bis zu 17B MoE Llama 4 Scout 17B, Gemma 3 12B 30-50 Tok/s
16 GB ⭐ Sweet Spot 13B-14B dicht / 17B MoE Qwen 3.5 14B, Mistral Medium 3.5, Phi-4 14B 40-70 Tok/s
20 GB Bis zu 32B Qwen2.5-Coder 32B, DeepSeek-R1 32B 25-40 Tok/s
24 GB Bis zu 27B komfortabel Gemma 4 26B QAT (85 Tok/s gemessen) 30-60 Tok/s
32 GB (RTX 5090) Bis zu 70B in Q4 Llama 3.3 70B (86.0 MMLU), Qwen 3.5 72B 15-30 Tok/s
48 GB+ (Multi-GPU) 70B FP16 oder Q5/Q6 Llama 3.3 70B FP16 mit 32K Kontext 10-20 Tok/s
128 GB Unified (GB10) Modelle 200B+ DeepSeek V4 Flash FP16, Llama 4 Maverick 20-40 Tok/s

Quellen: Echte Ollama-Benchmarks von Morph (April 2026), glukhov.org (RTX 4080 16 GB, März 2026), LocalAIMaster (März 2026). VRAM gemessen bei 8K-19K Kontext mit Q4_K_M-Quantisierung. Die tatsächlichen Werte variieren je nach geladenem Kontext.


Die besten Ollama-Modelle im Mai 2026 nach Kategorie

Kategorie Empfohlenes Modell Ollama-Befehl VRAM
Allround-Allrounder Llama 4 Scout 17B ollama pull llama4:scout ~10 GB
Deutsch / mehrsprachig Qwen 3.5 14B ollama pull qwen3.5:14b ~10 GB
Reine Geschwindigkeit (85 Tok/s) Gemma 4 26B QAT ollama pull gemma4:26b ~14 GB
Code ⭐ #1 Open Source Qwen2.5-Coder 32B ollama pull qwen2.5-coder:32b ~20 GB
Mathematik/Logik-Argumentation DeepSeek-R2 8B ollama pull deepseek-r2:8b ~5 GB
STEM / strukturierte Analyse Phi-4 14B (80.4% MATH) ollama pull phi4 ~10 GB
Klein / leicht Llama 3.1 8B (111M+ Downloads) ollama pull llama3.1:8b ~5 GB
Maximale Qualität Llama 3.3 70B (86.0 MMLU) ollama pull llama3.3:70b ~40 GB
💡 Wissenswertes: Qwen2.5-Coder 32B erreicht 92,7% bei HumanEval — ein Wert, der GPT-4o im Bereich Code Konkurrenz macht, und das, während es auf einer RTX 4080 / 5080 (20 GB VRAM) läuft. Dies ist einer der größten qualitativen Sprünge im lokalen Bereich des Jahres 2026.


Jenseits der GPU: Was bei Ollama auch zählt


System-RAM (DDR5 >> DDR4)

Wenn Ihr Modell in den System-RAM ausgelagert wird, hängt seine Geschwindigkeit direkt von der Speicherbandbreite ab. DDR5-6000 bietet 15-25% mehr Leistung als DDR4-3200 im CPU-Offloading-Modus. Für Ollama sollten Sie mindestens 32 GB DDR5 auf einer AM5-Plattform bevorzugen.


Schnelle NVMe SSD

Ollama-Modelle wiegen zwischen 5 GB (Llama 3.1 8B) und 40 GB (Llama 3.3 70B). Eine NVMe Gen 4 SSD lädt ein 14B-Modell beim ersten ollama run in 5-8 Sekunden. Auf einer SATA SSD dauert es 30-60 Sekunden.


CPU und Threads

Für reine GPU-Inferenz ist die CPU kaum relevant. Sobald jedoch CPU-Offloading oder RAG (Retrieval Augmented Generation) ins Spiel kommen, macht ein Ryzen 7 oder 9 mit 12-16 Kernen einen Unterschied. AVX-512 (Intel 12. Gen+, AMD Zen 4+) beschleunigt die CPU-Inferenz um 10-20%.


Wesentliche Ollama-Befehle

# Ollama installieren (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Modell herunterladen und starten
ollama pull qwen3.5:14b
ollama run qwen3.5:14b

# Installierte Modelle auflisten
ollama list

# Modell stoppen (VRAM freigeben)
ollama stop qwen3.5:14b

# GPU/CPU-Nutzung anzeigen
OLLAMA_DEBUG=1 ollama run llama3.1:8b "test" 2>&1 | grep "layers"

# Eine bestimmte Anzahl von GPU-Layern erzwingen
ollama run llama3.1:8b --gpu-layers 28


Häufige Fehler, die es zu vermeiden gilt

  • Q2_K wählen, um ein großes Modell unterzubringen – starke Qualitätsminderung. Ein 34B-Modell in Q6_K ist besser als ein 70B-Modell in Q2_K.
  • KV-Cache ignorieren – ein 8B-Modell mit 32K Kontext benötigt ~4,5 GB zusätzlichen Speicher für den Aufmerksamkeits-Cache. Lassen Sie 2-4 GB VRAM-Puffer.
  • Mehrere Modelle gleichzeitig laden – Ollama behält sie standardmäßig im VRAM. Verwenden Sie ollama stop, um sie freizugeben.
  • RAM unterschätzen – mindestens 32 GB DDR5 für ernsthaften Gebrauch. 64 GB für Modelle über 30B mit CPU-Offloading.


Unsere für Ollama optimierten PCs – vorkonfiguriert mit Ollama + Open WebUI

Radiance Systems entwickelt Workstations, die auf lokale LLM-Inferenz spezialisiert sind. Jede Maschine wird mit vorinstalliertem und auf Wunsch konfiguriertem Ollama und Open WebUI geliefert, wobei die von Ihnen gewählten Modelle bereits heruntergeladen sind. Sie starten Ihren PC und sprechen in weniger als 2 Minuten mit Ihrer KI.

⭐ Modelle 200B+ · Lautloses Mini-Format
Mini-KI-Server NVIDIA GB10 ASUS Ascent GX10 - PC Ollama 200B Parameter

Mini-KI-Server NVIDIA GB10 — ASUS Ascent GX10

Chip NVIDIA GB10 Grace Blackwell
Speicher 128 GB LPDDR5X Unified
KI-Leistung 1 PetaFLOP FP4
Format 150×150×51 mm
OS DGX OS (Ubuntu, CUDA)
Speicherplatz NVMe 4 TB

✅ Llama 4 Maverick FP16 · DeepSeek V4 Flash FP16 · Modelle bis zu 200B Parameter

Das einzige Desktop-System, das Modelle ausführen kann, die selbst eine RTX 5090 nicht im VRAM halten kann. 128 GB Unified Memory, GPU und CPU über NVLink-C2C mit 900 GB/s verbunden. Ideal für eine Kanzlei, die maximale Kapazität in einem ultrakompakten und leisen Format benötigt.

3.999 € ab

Betriebsbereit geliefert · DGX OS · natives Ollama

Diesen Server konfigurieren →
Einstiegsklasse · Ollama Sweet Spot
Radiance PC CoreAI 16 RTX 5060 Ti 16 GB - PC Ollama Qwen 14B Mistral

Radiance PC CoreAI 16 — RTX 5060 Ti 16 GB

CPU AMD Ryzen 5 7500F
GPU RTX 5060 Ti 16 GB GDDR7
RAM DDR5 16 GB
Speicherplatz NVMe 1 TB
OS Windows 11 Pro / Ubuntu
Bandbreite ~672 GB/s

✅ Qwen 3.5 14B · Mistral Medium 3.5 · Llama 4 Scout 17B · Phi-4 14B
Gemessene Geschwindigkeit: 40-70 Token/Sekunde

Der Sweet Spot 2026 für Ollama. 16 GB GDDR7, um 14B-Modelle vollständig auf der GPU ohne CPU-Offloading auszuführen. AM5 DDR5-Plattform für RAG-Pipelines. Idealer Einstiegspunkt für Freiberufler.

1.703 € ab

Ollama + Open WebUI auf Anfrage vorinstalliert

Diese Workstation konfigurieren →
Code & 30B-Modelle
Radiance PC CoreAI 32 RTX 5070 Ti - PC Ollama Qwen2.5-Coder 32B

Radiance PC CoreAI 32 — RTX 5070 Ti 16 GB

CPU AMD Ryzen 9 9900X
GPU RTX 5070 Ti 16 GB GDDR7
RAM DDR5 32 GB
Speicherplatz NVMe 1 TB
OS Windows 11 Pro / Ubuntu
Bandbreite ~1.280 GB/s

✅ Qwen2.5-Coder 32B (92,7% HumanEval) · Gemma 4 26B · DeepSeek-R1 32B
Gemessene Geschwindigkeit: 25-45 Token/Sekunde

Für anspruchsvolle Entwickler und Profis. 1,9-mal höhere Speicherbandbreite als die RTX 5060 Ti, ideal für 27B-32B-Modelle. Der Ryzen 9 9900X verwaltet RAG-Pipelines und n8n-Orchestrierung parallel.

2.442 € ab

Modelle auf Anfrage vorinstalliert (Qwen3.5, Mistral, DeepSeek)

Diese Workstation konfigurieren →
70B-Modelle · Die beste GPU 2026
Radiance PC CoreAI 64 RTX 5090 32 GB - PC Ollama Llama 3.3 70B

Radiance PC CoreAI 64 — RTX 5090 32 GB

CPU AMD Ryzen 9 9950X3D
GPU RTX 5090 32 GB GDDR7
RAM DDR5 64 GB
Speicherplatz NVMe 1 TB
Bandbreite 1.792 GB/s
Netzteil 1.200 W 80+ Gold

✅ Llama 3.3 70B Q4 (86.0 MMLU) · Qwen 3.5 72B · DeepSeek V4 Flash
Gemessene Geschwindigkeit: 15-30 Token/Sekunde bei 70B

Die beste Consumer-GPU für Ollama im Jahr 2026. 1.792 GB/s Speicherbandbreite – Rekord auf dem Consumer-Markt. Llama 3.3 70B Q4 vollständig auf der GPU, nahezu identische Leistung wie GPT-4o bei den meisten Aufgaben.

6.042 € ab

Leichtes Fine-Tuning möglich · LoRA kompatibel

Diese Workstation konfigurieren →
Multi-User · 64 GB VRAM
Radiance CoreAI Rack 2x RTX 5090 - Ollama Multi-User-Server

Radiance CoreAI Rack — 2× RTX 5090 (64 GB VRAM)

CPU AMD Ryzen 9 9950X3D
GPU 2× RTX 5090 32 GB
Gesamt-VRAM 64 GB GDDR7
RAM DDR5 128 GB
Format Rack 4U
Netzteil 2.000 W Platinum

✅ Llama 3.3 70B FP16 · Qwen 3.5 235B Q4 · Gleichzeitige Multi-GPU-Inferenz

Für Teams von 5 bis 20 Benutzern, die einen Ollama-Server teilen. Gleichzeitige Inferenz auf zwei unabhängigen GPUs – jeder Benutzer hat seinen dedizierten Stream. Ideal für Kanzleien mit mehreren Mitarbeitern.

11 221 € ab

Maßgeschneidert · 4U Rack · Ollama Multi-Tenant Server

Dieses Rack konfigurieren →
Produktion · ECC · 192 GB VRAM
Radiance CoreAI Rack 2x RTX 6000 Blackwell ECC - Ollama Produktionsserver

CoreAI 128 Rack — 2× RTX 6000 PRO Blackwell (192 GB ECC)

CPU AMD Ryzen 9 9950X3D
GPU 2× RTX 6000 96 GB ECC
Gesamter VRAM 192 GB ECC
RAM DDR5 128 GB
Formfaktor 4U Rack
Netzteil 2.000 W Platinum

✅ Alle Ollama-Modelle in nativer Präzision · Fine-Tuning 70B+ · 24/7 Produktion

Professionelle GPUs mit ECC-Speicher für kontinuierliche Produktion. 192 GB ECC-VRAM ermöglichen die Ausführung der größten Open-Source-Modelle in nativer Präzision (FP16). Maximale Zuverlässigkeit für kritische Umgebungen.

27 980 € ab

Installation vor Ort möglich · Dedizierter Support

Dieses Rack konfigurieren →
Threadripper PRO · HPC · max. 2 TB RAM
Radiance PC Pro AI Ultra Threadripper - Ollama HPC Trainingsstation

Radiance PC Pro AI Ultra Threadripper

CPU Threadripper PRO 7955WX 16c
GPU RTX 6000 Blackwell 96 GB
RAM ECC DDR5 128 GB RDIMM
Max. RAM Bis zu 2 TB ECC
Formfaktor 4U Rack
Netzteil 2.000 W Platinum

✅ Verteiltes Training · Massive RAG-Pipelines · HPC · Intensives Fine-Tuning

Die ultimative Workstation für anspruchsvolle Produktionsumgebungen. Threadripper PRO sTR5-Plattform, erweiterbar auf bis zu 96 Kerne und 2 TB ECC RAM. Für gemischte Lasten: Ollama + Vektor-Datenbanken + n8n-Orchestrierung + Training.

20 213 € ab

Maßgeschneidert · Individuelles Angebot · Installation vor Ort

Angebot anfordern →


Welcher PC für Ollama passt zu Ihrem Profil?

Profil Konfiguration Typisches Ollama-Modell Budget
Entdeckung / kleiner persönlicher Gebrauch RTX 5060 Ti 16 GB (CoreAI 16) Qwen 3.5 14B, Llama 4 Scout ~1.700€
Kompakte Freiberufler-Kanzlei ⭐ ASUS Ascent GX10 (GB10) DeepSeek V4 Flash FP16, 200B+ ~4.000€
Entwickler / Datenwissenschaftler CoreAI 32 RTX 5070 Ti Qwen2.5-Coder 32B, DeepSeek-R1 32B ~2.400€
70B-Modelle lokal CoreAI 64 RTX 5090 Llama 3.3 70B Q4 ~6.000€
Team 5-20 gemeinsame Nutzer Rack 2× RTX 5090 Llama 3.3 70B FP16, Multi-Tenant ~11.000€
Kritische 24/7 Produktion Rack 2× RTX 6000 ECC Alle Modelle, natives FP16 ~28.000€


Ollama Anwendungsfälle nach Beruf

  • Anwälte & Notare — Qwen 3.5 14B + Open WebUI: Vertragsanalyse, Suche in Klientendossiers, Aktenerstellung. Alles lokal, DSGVO- und Berufsgeheimnis-konform.
  • Ärzte & Kliniken — Mistral Medium 3.5 + RAG: diktierte Berichte, Analyse von Patientenakten, medizinische Dokumentenbasis. Keine Daten gelangen auf einen Cloud-Server.
  • Wirtschaftsprüfer — DeepSeek-R2 8B + Phi-4 14B: Bilanzanalyse, Anomalieerkennung, Berichtsgenerierung. Vertrauliche Zahlen werden niemals hochgeladen.
  • Entwickler — Qwen2.5-Coder 32B + Ollama API: Code-Vervollständigung in VS Code/Cursor, Debugging, Refactoring. OpenAI-kompatible API, Integration in 3 Zeilen.
  • KMU & Unternehmen — Llama 4 Scout + n8n + Vektor-Datenbank: Interner KI-Assistent, verbunden mit Ihren Dokumenten, Prozessen, CRM. Bereitstellung im privaten Netzwerk.


Häufig gestellte Fragen — PC für Ollama


Welche Mindest-GPU für Ollama?

8 GB VRAM (RTX 4060, RTX 5060) reichen für 7-8B-Modelle wie Llama 3.1 8B oder DeepSeek-R2 8B. Aber der Sweet Spot 2026 sind 16 GB VRAM (RTX 5060 Ti 16 GB oder RTX 5070 Ti) — Sie erhalten Zugang zu 13-14B-Modellen und 17B MoE-Modellen wie Qwen 3.5 14B, Mistral Medium 3.5 oder Llama 4 Scout, die eine deutlich höhere Qualität für nur 200-400€ Preisunterschied bei der GPU bieten.


Funktioniert Ollama ohne dedizierte GPU?

Ja, Ollama kann nur auf der CPU laufen. Aber die Geschwindigkeiten fallen bei einem 7B-Modell mit einer modernen CPU auf 3-8 Tokens/Sekunde – frustrierend für den interaktiven Gebrauch. Eine GPU mit 8 GB+ VRAM wird dringend empfohlen für ein flüssiges Erlebnis (30+ Tokens/Sekunde).


Wie erkenne ich, ob mein Modell in den VRAM passt?

Starten Sie OLLAMA_DEBUG=1 ollama run [Modell] "test" — die Logs zeigen an, wie viele Schichten auf der GPU vs. CPU geladen werden. Wenn weniger als 100% auf der GPU sind, ist Ihr Modell zu groß. Wählen Sie eine niedrigere Quantisierung (mindestens Q4_K_M) oder ein kleineres Modell.


Benötigt man Windows oder Linux für Ollama?

Beide funktionieren sehr gut. Linux (Ubuntu) bietet die beste Rohleistung und optimale CUDA-Unterstützung. Windows 11 vereinfacht die tägliche Nutzung und ist mit WSL2 für Entwickler kompatibel. Unsere Workstations werden mit dem Betriebssystem Ihrer Wahl geliefert.


Welche Benutzeroberfläche soll ich mit Ollama verwenden?

Open WebUI ist die beliebteste Web-Oberfläche im Jahr 2026 — ChatGPT-ähnlich, über Docker bereitstellbar, native Verwaltung von Dokumenten-RAG. LM Studio bietet eine Desktop-Alternative mit integrierter GUI. Unsere Radiance-PCs können mit einer der beiden Optionen vorinstalliert geliefert werden, je nach Ihrer Präferenz.


Kann man Fine-Tuning auf diesen Ollama-PCs durchführen?

LoRA (parameter-effizientes) Fine-Tuning ist ab 16 GB VRAM für 7B-8B-Modelle möglich. Für ernsthaftes Fine-Tuning bei 14B-32B-Modellen benötigt man 24 GB+ (CoreAI 32 oder höher). Für 70B+-Modelle rechnen Sie mit 48 GB+ mit Multi-GPU.

 

Zurück zum Blog

Ihr Angebot für eine maßgeschneiderte KI-Lösung innerhalb von 24–48 Stunden

Jedes Radiance-Projekt beginnt mit einem Gespräch. Füllen Sie dieses Formular aus und ein Experte wird sich umgehend mit einer auf Ihr Unternehmen und Ihr Budget zugeschnittenen Lösung bei Ihnen melden.

Antwort innerhalb von 24–48 Arbeitsstunden
Lieferung innerhalb Europas (EU)
2 Jahre Garantie inklusive
Installation vor Ort möglich
Keine Verpflichtung auf Abruf
Dedizierter Support vor und nach dem Kauf
01 Was ist Ihr Hauptverwendungszweck für KI?
Multiple Choice.
02 In welchem Kontext wird das System verwendet?
Nur eine Wahlmöglichkeit.
03 Welche Art von System suchen Sie?
Nur eine Wahlmöglichkeit.
04 Welches Betriebssystem bevorzugen Sie?
Nur eine Wahlmöglichkeit.
05 Welche Erwartungen haben Sie an die Software?
Multiple Choice.
06 Was ist Ihr Richtbudget?
Nur eine Wahlmöglichkeit.
07 Wann möchten Sie Ihr System erhalten?
Nur eine Wahlmöglichkeit.
08 Wünschen Sie eine Begleitung bei der Umsetzung?
Einzelne Auswahl. Ein Radiance-Techniker kann Sie vor Ort oder per Fernzugriff unterstützen.
09 Lieferland (nur EU) *
Wir liefern ausschließlich innerhalb der Europäischen Union (EU).
10 Zusätzliche Informationen (optional, aber sehr nützlich)
Beschreiben Sie kurz Ihr Projekt, etwaige spezifische Einschränkungen oder sonstige relevante Informationen.
11 Möchten Sie kontaktiert werden, um Ihr Projekt zu besprechen?
Wenn Sie „Nur Kostenvoranschlag“ auswählen, können Sie auf unsere E-Mail antworten, um Ihre Fragen zu stellen und den Kostenvoranschlag zu verfeinern.
12 E-Mail *
Wir senden Ihnen das Angebot an diese Adresse.

Weitere Fragen?

Senden Sie uns eine E-Mail an contact@radiancesystems,eu oder kontaktieren Sie uns über das Kontaktformular. Wir beantworten alle Anfragen innerhalb von 3 Stunden während der Arbeitszeiten (Montag bis Freitag von 9 bis 17 Uhr).

📞 +33 4 65 84 48 21