PC pour Ollama 2026 : quel matériel pour faire tourner vos LLM en local ?


Ollama est devenu en 2026 l'outil de référence pour exécuter des LLM en local — une seule commande pour télécharger un modèle, une API compatible OpenAI sur localhost:11434, et la possibilité de faire tourner Llama 4, Qwen 3.5, DeepSeek V4 ou Gemma 4 directement sur sa propre machine. Mais quel PC faut-il pour obtenir des performances réellement utilisables ? Ce guide répond précisément à la question, avec des benchmarks réels et des recommandations matérielles testées.


Qu'est-ce qu'Ollama et pourquoi tout le monde l'utilise en 2026 ?

Ollama est un runtime LLM open source qui télécharge, exécute et expose des modèles d'IA en local — entièrement sur votre machine, sans aucune connexion cloud. Son adoption a explosé en 2026 pour trois raisons :

  • Une seule commande pour démarrer. Aucune configuration complexe, pas de gestion de poids, de quantisation ou de runtime à compiler.
  • API compatible OpenAI. Toute application conçue pour ChatGPT peut basculer sur Ollama en changeant juste l'URL — localhost:11434 au lieu de api.openai.com.
  • Bibliothèque de 500+ modèles. Llama 4 Scout, Qwen 3.5, DeepSeek V4, Gemma 4, Mistral, Phi-4, Qwen2.5-Coder — tous disponibles en une commande ollama pull.

L'installation tient en une ligne :

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3:14b
ollama run qwen3:14b

En moins de 5 minutes, vous avez un LLM local fonctionnel — accessible depuis votre navigateur (via Open WebUI), depuis votre éditeur de code, ou depuis n'importe quelle application via l'API REST.


Le facteur critique pour Ollama : la VRAM

Ollama charge les poids du modèle en mémoire GPU. Si tout tient en VRAM, vous obtenez 40 à 80 tokens/seconde sur une RTX 5060 Ti 16 Go. Si le modèle déborde sur la RAM système, les performances s'effondrent :

⚠️ Le piège du débordement VRAM : selon les benchmarks de LocalLLM.in (février 2026), un modèle Qwen 3 8B passe de 40 tok/s en VRAM complète à seulement 8 tok/s quand 11 des 36 couches doivent passer sur RAM — soit une chute de 5×. Sur des modèles plus lourds, le ralentissement peut atteindre 30× plus lent. Le goulot d'étranglement est la bande passante PCIe entre RAM système et VRAM.

Conclusion : mieux vaut choisir un modèle plus petit qui tient entièrement en VRAM qu'un gros modèle qui déborde. Un Qwen 3.5 14B à 60 tok/s est plus utile qu'un Llama 3.3 70B qui rame à 4 tok/s.


VRAM nécessaire selon le modèle Ollama (Q4_K_M, mai 2026)

VRAM GPU Modèles compatibles Exemples 2026 Vitesse approx.
5-8 Go Jusqu'à 9B Llama 3.1 8B, DeepSeek-R2 8B, Qwen3 8B, Gemma 3 4B 40-90 tok/s
12 Go Jusqu'à 17B MoE Llama 4 Scout 17B, Gemma 3 12B 30-50 tok/s
16 Go ⭐ Sweet spot 13B-14B dense / 17B MoE Qwen 3.5 14B, Mistral Medium 3.5, Phi-4 14B 40-70 tok/s
20 Go Jusqu'à 32B Qwen2.5-Coder 32B, DeepSeek-R1 32B 25-40 tok/s
24 Go Jusqu'à 27B confortablement Gemma 4 26B QAT (85 tok/s mesurés) 30-60 tok/s
32 Go (RTX 5090) Jusqu'à 70B en Q4 Llama 3.3 70B (86.0 MMLU), Qwen 3.5 72B 15-30 tok/s
48 Go+ (multi-GPU) 70B FP16 ou Q5/Q6 Llama 3.3 70B FP16 avec contexte 32K 10-20 tok/s
128 Go unifiés (GB10) Modèles 200B+ DeepSeek V4 Flash FP16, Llama 4 Maverick 20-40 tok/s

Sources : benchmarks réels Ollama de Morph (avril 2026), glukhov.org (RTX 4080 16 Go, mars 2026), LocalAIMaster (mars 2026). VRAM mesurée à 8K-19K de contexte avec quantisation Q4_K_M. Les valeurs réelles varient selon le contexte chargé.


Les meilleurs modèles Ollama en mai 2026 par catégorie

Catégorie Modèle recommandé Commande Ollama VRAM
Général polyvalent Llama 4 Scout 17B ollama pull llama4:scout ~10 Go
Français / multilingue Qwen 3.5 14B ollama pull qwen3.5:14b ~10 Go
Vitesse pure (85 tok/s) Gemma 4 26B QAT ollama pull gemma4:26b ~14 Go
Code ⭐ #1 open source Qwen2.5-Coder 32B ollama pull qwen2.5-coder:32b ~20 Go
Raisonnement math/logique DeepSeek-R2 8B ollama pull deepseek-r2:8b ~5 Go
STEM / analyse structurée Phi-4 14B (80.4% MATH) ollama pull phi4 ~10 Go
Petit / léger Llama 3.1 8B (111M+ téléchargements) ollama pull llama3.1:8b ~5 Go
Qualité maximale Llama 3.3 70B (86.0 MMLU) ollama pull llama3.3:70b ~40 Go
💡 À savoir : Qwen2.5-Coder 32B atteint 92,7% sur HumanEval — un score qui rivalise avec GPT-4o sur le code, tout en tournant sur une RTX 4080 / 5080 (20 Go VRAM). C'est l'un des plus grands sauts qualitatifs en local de l'année 2026.


Au-delà du GPU : ce qui compte aussi pour Ollama


RAM système (DDR5 >> DDR4)

Si votre modèle déborde sur la RAM système, sa vitesse dépend directement de la bande passante mémoire. La DDR5-6000 offre 15-25% de performances en plus que la DDR4-3200 en mode CPU offloading. Pour Ollama, privilégiez 32 Go DDR5 minimum sur plateforme AM5.


SSD NVMe rapide

Les modèles Ollama pèsent entre 5 Go (Llama 3.1 8B) et 40 Go (Llama 3.3 70B). Un SSD NVMe Gen 4 charge un modèle 14B en 5-8 secondes au premier ollama run. Sur un SSD SATA, comptez 30-60 secondes.


CPU et threads

Pour l'inférence pure-GPU, le CPU compte peu. Mais dès qu'il y a CPU offloading ou RAG (retrieval augmented generation), un Ryzen 7 ou 9 avec 12-16 cœurs fait la différence. AVX-512 (Intel 12e Gen+, AMD Zen 4+) accélère l'inférence CPU de 10-20%.


Commandes Ollama essentielles

# Installer Ollama (Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# Télécharger et lancer un modèle
ollama pull qwen3.5:14b
ollama run qwen3.5:14b

# Lister les modèles installés
ollama list

# Arrêter un modèle (libérer la VRAM)
ollama stop qwen3.5:14b

# Voir l'utilisation GPU/CPU
OLLAMA_DEBUG=1 ollama run llama3.1:8b "test" 2>&1 | grep "layers"

# Forcer un nombre précis de couches GPU
ollama run llama3.1:8b --gpu-layers 28


Erreurs courantes à éviter

  • Choisir Q2_K pour faire rentrer un gros modèle — dégradation de qualité sévère. Un modèle 34B en Q6_K est meilleur qu'un 70B en Q2_K.
  • Ignorer le KV cache — un modèle 8B à 32K de contexte demande ~4,5 Go supplémentaires pour le cache d'attention. Laissez 2-4 Go de marge en VRAM.
  • Charger plusieurs modèles simultanément — Ollama les garde en VRAM par défaut. Utilisez ollama stop pour libérer.
  • Sous-estimer la RAM — 32 Go DDR5 minimum pour un usage sérieux. 64 Go pour les modèles 30B+ avec CPU offloading.


Nos PC optimisés pour Ollama — pré-configurés avec Ollama + Open WebUI

Radiance Systems conçoit des stations dédiées à l'inférence LLM locale. Chaque machine est livrée avec Ollama et Open WebUI pré-installés et configurés sur demande, avec les modèles de votre choix déjà téléchargés. Vous démarrez votre PC et vous discutez avec votre IA en moins de 2 minutes.

⭐ Modèles 200B+ · Mini-format silencieux
Mini serveur IA NVIDIA GB10 ASUS Ascent GX10 - PC Ollama 200B paramètres

Mini Serveur IA NVIDIA GB10 — ASUS Ascent GX10

Puce NVIDIA GB10 Grace Blackwell
Mémoire 128 Go LPDDR5X unifiée
Puissance IA 1 pétaFLOP FP4
Format 150×150×51 mm
OS DGX OS (Ubuntu, CUDA)
Stockage NVMe 4 To

✅ Llama 4 Maverick FP16 · DeepSeek V4 Flash FP16 · Modèles jusqu'à 200B paramètres

Le seul système de bureau capable de faire tourner des modèles que même une RTX 5090 ne peut pas tenir en VRAM. 128 Go de mémoire unifiée, GPU et CPU fusionnés via NVLink-C2C à 900 Go/s. Idéal pour un cabinet exigeant le maximum de capacité dans un format ultra-compact et silencieux.

3 999 € à partir de

Livré prêt à l'emploi · DGX OS · Ollama natif

Configurer ce serveur →
Entrée de gamme · Sweet spot Ollama
Radiance PC CoreAI 16 RTX 5060 Ti 16Go - PC Ollama Qwen 14B Mistral

Radiance PC CoreAI 16 — RTX 5060 Ti 16 Go

CPU AMD Ryzen 5 7500F
GPU RTX 5060 Ti 16 Go GDDR7
RAM DDR5 16 Go
Stockage NVMe 1 To
OS Windows 11 Pro / Ubuntu
Bande passante ~672 Go/s

✅ Qwen 3.5 14B · Mistral Medium 3.5 · Llama 4 Scout 17B · Phi-4 14B
Vitesse mesurée : 40-70 tokens/seconde

Le sweet spot 2026 pour Ollama. 16 Go GDDR7 pour faire tourner les modèles 14B entièrement en GPU sans CPU offloading. Plateforme AM5 DDR5 pour les pipelines RAG. Point d'entrée idéal pour un professionnel libéral.

1 703 € à partir de

Ollama + Open WebUI pré-installés sur demande

Configurer cette station →
Code & Modèles 30B
Radiance PC CoreAI 32 RTX 5070 Ti - PC Ollama Qwen2.5-Coder 32B

Radiance PC CoreAI 32 — RTX 5070 Ti 16 Go

CPU AMD Ryzen 9 9900X
GPU RTX 5070 Ti 16 Go GDDR7
RAM DDR5 32 Go
Stockage NVMe 1 To
OS Windows 11 Pro / Ubuntu
Bande passante ~1 280 Go/s

✅ Qwen2.5-Coder 32B (92,7% HumanEval) · Gemma 4 26B · DeepSeek-R1 32B
Vitesse mesurée : 25-45 tokens/seconde

Pour les développeurs et professionnels exigeants. Bande passante mémoire 1,9× supérieure à la RTX 5060 Ti, idéale pour les modèles 27B-32B. Le Ryzen 9 9900X gère les pipelines RAG et l'orchestration n8n en parallèle.

2 442 € à partir de

Modèles pré-téléchargés sur demande (Qwen3.5, Mistral, DeepSeek)

Configurer cette station →
Modèles 70B · Le meilleur GPU 2026
Radiance PC CoreAI 64 RTX 5090 32Go - PC Ollama Llama 3.3 70B

Radiance PC CoreAI 64 — RTX 5090 32 Go

CPU AMD Ryzen 9 9950X3D
GPU RTX 5090 32 Go GDDR7
RAM DDR5 64 Go
Stockage NVMe 1 To
Bande passante 1 792 Go/s
Alimentation 1 200 W 80+ Gold

✅ Llama 3.3 70B Q4 (86.0 MMLU) · Qwen 3.5 72B · DeepSeek V4 Flash
Vitesse mesurée : 15-30 tokens/seconde sur 70B

Le meilleur GPU grand public pour Ollama en 2026. 1 792 Go/s de bande passante mémoire — record du marché consommateur. Llama 3.3 70B Q4 entièrement en GPU, performances quasi-équivalentes à GPT-4o sur la plupart des tâches.

6 042 € à partir de

Fine-tuning léger possible · LoRA compatible

Configurer cette station →
Multi-utilisateurs · 64 Go VRAM
Radiance CoreAI Rack 2x RTX 5090 - serveur Ollama multi-utilisateurs

Radiance CoreAI Rack — 2× RTX 5090 (64 Go VRAM)

CPU AMD Ryzen 9 9950X3D
GPU 2× RTX 5090 32 Go
VRAM totale 64 Go GDDR7
RAM DDR5 128 Go
Format Rack 4U
Alimentation 2 000 W Platinum

✅ Llama 3.3 70B FP16 · Qwen 3.5 235B Q4 · Inférence simultanée multi-GPU

Pour les équipes de 5 à 20 utilisateurs partageant un serveur Ollama. Inférence concurrente sur deux GPU indépendants — chaque utilisateur a son flux dédié. Idéal pour les cabinets avec plusieurs collaborateurs.

11 221 € à partir de

Sur mesure · Rack 4U · Ollama serveur multi-tenant

Configurer ce rack →
Production · ECC · 192 Go VRAM
Radiance CoreAI Rack 2x RTX 6000 Blackwell ECC - serveur Ollama production

CoreAI 128 Rack — 2× RTX 6000 PRO Blackwell (192 Go ECC)

CPU AMD Ryzen 9 9950X3D
GPU 2× RTX 6000 96 Go ECC
VRAM totale 192 Go ECC
RAM DDR5 128 Go
Format Rack 4U
Alimentation 2 000 W Platinum

✅ Tous les modèles Ollama en précision native · Fine-tuning 70B+ · Production 24/7

GPU professionnels avec mémoire ECC pour la production continue. 192 Go de VRAM ECC permettent d'exécuter les plus grands modèles open source en précision native (FP16). Fiabilité maximale pour les environnements critiques.

27 980 € à partir de

Installation sur site possible · Support dédié

Configurer ce rack →
Threadripper PRO · HPC · 2 To RAM max
Radiance PC Pro AI Ultra Threadripper - station Ollama HPC entraînement

Radiance PC Pro AI Ultra Threadripper

CPU Threadripper PRO 7955WX 16c
GPU RTX 6000 Blackwell 96 Go
RAM ECC DDR5 128 Go RDIMM
RAM max Jusqu'à 2 To ECC
Format Rack 4U
Alimentation 2 000 W Platinum

✅ Entraînement distribué · Pipelines RAG massifs · HPC · Fine-tuning intensif

La station ultime pour les environnements de production exigeants. Plateforme Threadripper PRO sTR5 extensible jusqu'à 96 cœurs et 2 To de RAM ECC. Pour les charges mixtes : Ollama + bases vectorielles + orchestration n8n + entraînement.

20 213 € à partir de

Sur mesure · Devis personnalisé · Installation sur site

Demander un devis →


Quel PC pour Ollama selon votre profil ?

Profil Configuration Modèle Ollama type Budget
Découverte / petit usage personnel RTX 5060 Ti 16 Go (CoreAI 16) Qwen 3.5 14B, Llama 4 Scout ~1 700€
Cabinet libéral compact ⭐ ASUS Ascent GX10 (GB10) DeepSeek V4 Flash FP16, 200B+ ~4 000€
Développeur / data scientist CoreAI 32 RTX 5070 Ti Qwen2.5-Coder 32B, DeepSeek-R1 32B ~2 400€
Modèles 70B en local CoreAI 64 RTX 5090 Llama 3.3 70B Q4 ~6 000€
Équipe 5-20 utilisateurs partagés Rack 2× RTX 5090 Llama 3.3 70B FP16, multi-tenant ~11 000€
Production critique 24/7 Rack 2× RTX 6000 ECC Tous modèles, FP16 natif ~28 000€


Cas d'usage Ollama par métier

  • Avocats & notaires — Qwen 3.5 14B + Open WebUI : analyse de contrats, recherche dans les dossiers clients, rédaction d'actes. Tout en local, conforme RGPD et secret professionnel.
  • Médecins & cliniques — Mistral Medium 3.5 + RAG : comptes-rendus dictés, analyse d'historiques patients, base documentaire médicale. Aucune donnée n'atteint un serveur cloud.
  • Experts-comptables — DeepSeek-R2 8B + Phi-4 14B : analyse de bilans, détection d'anomalies, génération de rapports. Chiffres confidentiels jamais uploadés ailleurs.
  • Développeurs — Qwen2.5-Coder 32B + API Ollama : completion de code dans VS Code/Cursor, debugging, refactoring. API compatible OpenAI, intégration en 3 lignes.
  • PME & entreprises — Llama 4 Scout + n8n + base vectorielle : assistant IA interne connecté à vos docs, procédures, CRM. Déploiement sur réseau privé.


Questions fréquentes — PC pour Ollama


Quel GPU minimum pour Ollama ?

8 Go de VRAM (RTX 4060, RTX 5060) suffisent pour les modèles 7-8B comme Llama 3.1 8B ou DeepSeek-R2 8B. Mais le sweet spot 2026 est 16 Go de VRAM (RTX 5060 Ti 16 Go ou RTX 5070 Ti) — vous accédez aux modèles 13-14B et 17B MoE comme Qwen 3.5 14B, Mistral Medium 3.5 ou Llama 4 Scout, qui offrent une qualité largement supérieure pour seulement 200-400€ de différence de prix GPU.


Ollama fonctionne-t-il sans GPU dédié ?

Oui, Ollama peut tourner uniquement sur CPU. Mais les vitesses chutent à 3-8 tokens/seconde sur un modèle 7B avec un CPU moderne — frustrant pour un usage interactif. Un GPU avec 8 Go+ de VRAM est fortement recommandé pour une expérience fluide (30+ tok/s).


Comment savoir si mon modèle tient en VRAM ?

Lancez OLLAMA_DEBUG=1 ollama run [modèle] "test" — les logs indiquent combien de couches sont chargées en GPU vs CPU. Si moins de 100% sont sur GPU, votre modèle est trop gros. Choisissez une quantisation plus basse (Q4_K_M minimum) ou un modèle plus petit.


Faut-il Windows ou Linux pour Ollama ?

Les deux fonctionnent très bien. Linux (Ubuntu) offre les meilleures performances brutes et le support CUDA optimal. Windows 11 simplifie l'utilisation au quotidien et est compatible avec WSL2 pour les développeurs. Nos stations sont livrées avec l'OS de votre choix.


Quelle interface utiliser avec Ollama ?

Open WebUI est l'interface web la plus populaire en 2026 — chatGPT-like, déployable via Docker, gestion native du RAG documentaire. LM Studio propose une alternative bureau avec GUI intégré. Nos PC Radiance peuvent être livrés avec l'un ou l'autre pré-installé selon votre préférence.


Peut-on faire du fine-tuning sur ces PC Ollama ?

Le fine-tuning LoRA (paramètre-efficace) est possible à partir de 16 Go de VRAM pour des modèles 7B-8B. Pour du fine-tuning sérieux sur 14B-32B, il faut 24 Go+ (CoreAI 32 ou supérieur). Pour les modèles 70B+, comptez 48 Go+ avec multi-GPU.

 

Retour au blog

Votre devis pour une solution IA sur mesure sous 24–48h

Chaque projet Radiance commence par une conversation. Remplissez ce formulaire et un expert vous répondra rapidement avec une solution adaptée à votre métier et votre budget.

Réponse sous 24–48h ouvrés
Livraison dans toute l'Europe (UE)
Garantie 2 ans incluse
Installation sur site possible
Aucun engagement à la demande
Support dédié avant et après achat
01 Quel est votre usage principal de l'IA ?
Choix multiple.
02 Dans quel contexte sera utilisé le système ?
Choix unique.
03 Quel type de système recherchez-vous ?
Choix unique.
04 Quel système d'exploitation préférez-vous ?
Choix unique.
05 Quel est votre niveau d'attente sur le logiciel ?
Choix multiple.
06 Quel est votre budget indicatif ?
Choix unique.
07 Quand souhaitez-vous recevoir votre système ?
Choix unique.
08 Souhaitez-vous un accompagnement à la mise en place ?
Choix unique. Un technicien Radiance peut intervenir chez vous ou à distance.
09 Pays de livraison (UE uniquement) *
Nous livrons uniquement dans l'Union Européenne (UE).
10 Informations complémentaires (optionnel mais très utile)
Décrivez brièvement votre projet, vos contraintes spécifiques ou toute information utile.
11 Souhaitez-vous être recontacté pour échanger sur votre projet ?
Si vous choisissez "Devis uniquement", vous pourrez répondre à notre email pour poser vos questions et affiner le devis.
12 Email *
Nous vous enverrons le devis à cette adresse.

Plus de questions ?

Envoyez nous un email à contact@radiancesystems,eu ou contactez nous via le formulaire de contact, nous répondons en moins de 3h à toutes les demandes pendant les horaires de travail (Du lundi au vendredi de 9h à 17h).

📞 +33 4 65 84 48 21