PC pour Ollama 2026 : quel matériel pour faire tourner vos LLM en local ?
Share
Ollama est devenu en 2026 l'outil de référence pour exécuter des LLM en local — une seule commande pour télécharger un modèle, une API compatible OpenAI sur localhost:11434, et la possibilité de faire tourner Llama 4, Qwen 3.5, DeepSeek V4 ou Gemma 4 directement sur sa propre machine. Mais quel PC faut-il pour obtenir des performances réellement utilisables ? Ce guide répond précisément à la question, avec des benchmarks réels et des recommandations matérielles testées.
Qu'est-ce qu'Ollama et pourquoi tout le monde l'utilise en 2026 ?
Ollama est un runtime LLM open source qui télécharge, exécute et expose des modèles d'IA en local — entièrement sur votre machine, sans aucune connexion cloud. Son adoption a explosé en 2026 pour trois raisons :
- Une seule commande pour démarrer. Aucune configuration complexe, pas de gestion de poids, de quantisation ou de runtime à compiler.
-
API compatible OpenAI. Toute application conçue pour ChatGPT peut basculer sur Ollama en changeant juste l'URL —
localhost:11434au lieu deapi.openai.com. -
Bibliothèque de 500+ modèles. Llama 4 Scout, Qwen 3.5, DeepSeek V4, Gemma 4, Mistral, Phi-4, Qwen2.5-Coder — tous disponibles en une commande
ollama pull.
L'installation tient en une ligne :
curl -fsSL https://ollama.com/install.sh | sh ollama pull qwen3:14b ollama run qwen3:14b
En moins de 5 minutes, vous avez un LLM local fonctionnel — accessible depuis votre navigateur (via Open WebUI), depuis votre éditeur de code, ou depuis n'importe quelle application via l'API REST.
Le facteur critique pour Ollama : la VRAM
Ollama charge les poids du modèle en mémoire GPU. Si tout tient en VRAM, vous obtenez 40 à 80 tokens/seconde sur une RTX 5060 Ti 16 Go. Si le modèle déborde sur la RAM système, les performances s'effondrent :
Conclusion : mieux vaut choisir un modèle plus petit qui tient entièrement en VRAM qu'un gros modèle qui déborde. Un Qwen 3.5 14B à 60 tok/s est plus utile qu'un Llama 3.3 70B qui rame à 4 tok/s.
VRAM nécessaire selon le modèle Ollama (Q4_K_M, mai 2026)
| VRAM GPU | Modèles compatibles | Exemples 2026 | Vitesse approx. |
|---|---|---|---|
| 5-8 Go | Jusqu'à 9B | Llama 3.1 8B, DeepSeek-R2 8B, Qwen3 8B, Gemma 3 4B | 40-90 tok/s |
| 12 Go | Jusqu'à 17B MoE | Llama 4 Scout 17B, Gemma 3 12B | 30-50 tok/s |
| 16 Go ⭐ Sweet spot | 13B-14B dense / 17B MoE | Qwen 3.5 14B, Mistral Medium 3.5, Phi-4 14B | 40-70 tok/s |
| 20 Go | Jusqu'à 32B | Qwen2.5-Coder 32B, DeepSeek-R1 32B | 25-40 tok/s |
| 24 Go | Jusqu'à 27B confortablement | Gemma 4 26B QAT (85 tok/s mesurés) | 30-60 tok/s |
| 32 Go (RTX 5090) | Jusqu'à 70B en Q4 | Llama 3.3 70B (86.0 MMLU), Qwen 3.5 72B | 15-30 tok/s |
| 48 Go+ (multi-GPU) | 70B FP16 ou Q5/Q6 | Llama 3.3 70B FP16 avec contexte 32K | 10-20 tok/s |
| 128 Go unifiés (GB10) | Modèles 200B+ | DeepSeek V4 Flash FP16, Llama 4 Maverick | 20-40 tok/s |
Sources : benchmarks réels Ollama de Morph (avril 2026), glukhov.org (RTX 4080 16 Go, mars 2026), LocalAIMaster (mars 2026). VRAM mesurée à 8K-19K de contexte avec quantisation Q4_K_M. Les valeurs réelles varient selon le contexte chargé.
Les meilleurs modèles Ollama en mai 2026 par catégorie
| Catégorie | Modèle recommandé | Commande Ollama | VRAM |
|---|---|---|---|
| Général polyvalent | Llama 4 Scout 17B | ollama pull llama4:scout |
~10 Go |
| Français / multilingue | Qwen 3.5 14B | ollama pull qwen3.5:14b |
~10 Go |
| Vitesse pure (85 tok/s) | Gemma 4 26B QAT | ollama pull gemma4:26b |
~14 Go |
| Code ⭐ #1 open source | Qwen2.5-Coder 32B | ollama pull qwen2.5-coder:32b |
~20 Go |
| Raisonnement math/logique | DeepSeek-R2 8B | ollama pull deepseek-r2:8b |
~5 Go |
| STEM / analyse structurée | Phi-4 14B (80.4% MATH) | ollama pull phi4 |
~10 Go |
| Petit / léger | Llama 3.1 8B (111M+ téléchargements) | ollama pull llama3.1:8b |
~5 Go |
| Qualité maximale | Llama 3.3 70B (86.0 MMLU) | ollama pull llama3.3:70b |
~40 Go |
Au-delà du GPU : ce qui compte aussi pour Ollama
RAM système (DDR5 >> DDR4)
Si votre modèle déborde sur la RAM système, sa vitesse dépend directement de la bande passante mémoire. La DDR5-6000 offre 15-25% de performances en plus que la DDR4-3200 en mode CPU offloading. Pour Ollama, privilégiez 32 Go DDR5 minimum sur plateforme AM5.
SSD NVMe rapide
Les modèles Ollama pèsent entre 5 Go (Llama 3.1 8B) et 40 Go (Llama 3.3 70B). Un SSD NVMe Gen 4 charge un modèle 14B en 5-8 secondes au premier ollama run. Sur un SSD SATA, comptez 30-60 secondes.
CPU et threads
Pour l'inférence pure-GPU, le CPU compte peu. Mais dès qu'il y a CPU offloading ou RAG (retrieval augmented generation), un Ryzen 7 ou 9 avec 12-16 cœurs fait la différence. AVX-512 (Intel 12e Gen+, AMD Zen 4+) accélère l'inférence CPU de 10-20%.
Commandes Ollama essentielles
# Installer Ollama (Linux/macOS) curl -fsSL https://ollama.com/install.sh | sh # Télécharger et lancer un modèle ollama pull qwen3.5:14b ollama run qwen3.5:14b # Lister les modèles installés ollama list # Arrêter un modèle (libérer la VRAM) ollama stop qwen3.5:14b # Voir l'utilisation GPU/CPU OLLAMA_DEBUG=1 ollama run llama3.1:8b "test" 2>&1 | grep "layers" # Forcer un nombre précis de couches GPU ollama run llama3.1:8b --gpu-layers 28
Erreurs courantes à éviter
- Choisir Q2_K pour faire rentrer un gros modèle — dégradation de qualité sévère. Un modèle 34B en Q6_K est meilleur qu'un 70B en Q2_K.
- Ignorer le KV cache — un modèle 8B à 32K de contexte demande ~4,5 Go supplémentaires pour le cache d'attention. Laissez 2-4 Go de marge en VRAM.
-
Charger plusieurs modèles simultanément — Ollama les garde en VRAM par défaut. Utilisez
ollama stoppour libérer. - Sous-estimer la RAM — 32 Go DDR5 minimum pour un usage sérieux. 64 Go pour les modèles 30B+ avec CPU offloading.
Nos PC optimisés pour Ollama — pré-configurés avec Ollama + Open WebUI
Radiance Systems conçoit des stations dédiées à l'inférence LLM locale. Chaque machine est livrée avec Ollama et Open WebUI pré-installés et configurés sur demande, avec les modèles de votre choix déjà téléchargés. Vous démarrez votre PC et vous discutez avec votre IA en moins de 2 minutes.
Mini Serveur IA NVIDIA GB10 — ASUS Ascent GX10
✅ Llama 4 Maverick FP16 · DeepSeek V4 Flash FP16 · Modèles jusqu'à 200B paramètres
Le seul système de bureau capable de faire tourner des modèles que même une RTX 5090 ne peut pas tenir en VRAM. 128 Go de mémoire unifiée, GPU et CPU fusionnés via NVLink-C2C à 900 Go/s. Idéal pour un cabinet exigeant le maximum de capacité dans un format ultra-compact et silencieux.
Livré prêt à l'emploi · DGX OS · Ollama natif
Configurer ce serveur →
Radiance PC CoreAI 16 — RTX 5060 Ti 16 Go
✅ Qwen 3.5 14B · Mistral Medium 3.5 · Llama 4 Scout 17B · Phi-4 14B
Vitesse mesurée : 40-70 tokens/seconde
Le sweet spot 2026 pour Ollama. 16 Go GDDR7 pour faire tourner les modèles 14B entièrement en GPU sans CPU offloading. Plateforme AM5 DDR5 pour les pipelines RAG. Point d'entrée idéal pour un professionnel libéral.
Ollama + Open WebUI pré-installés sur demande
Configurer cette station →
Radiance PC CoreAI 32 — RTX 5070 Ti 16 Go
✅ Qwen2.5-Coder 32B (92,7% HumanEval) · Gemma 4 26B · DeepSeek-R1 32B
Vitesse mesurée : 25-45 tokens/seconde
Pour les développeurs et professionnels exigeants. Bande passante mémoire 1,9× supérieure à la RTX 5060 Ti, idéale pour les modèles 27B-32B. Le Ryzen 9 9900X gère les pipelines RAG et l'orchestration n8n en parallèle.
Modèles pré-téléchargés sur demande (Qwen3.5, Mistral, DeepSeek)
Configurer cette station →
Radiance PC CoreAI 64 — RTX 5090 32 Go
✅ Llama 3.3 70B Q4 (86.0 MMLU) · Qwen 3.5 72B · DeepSeek V4 Flash
Vitesse mesurée : 15-30 tokens/seconde sur 70B
Le meilleur GPU grand public pour Ollama en 2026. 1 792 Go/s de bande passante mémoire — record du marché consommateur. Llama 3.3 70B Q4 entièrement en GPU, performances quasi-équivalentes à GPT-4o sur la plupart des tâches.
Fine-tuning léger possible · LoRA compatible
Configurer cette station →
Radiance CoreAI Rack — 2× RTX 5090 (64 Go VRAM)
✅ Llama 3.3 70B FP16 · Qwen 3.5 235B Q4 · Inférence simultanée multi-GPU
Pour les équipes de 5 à 20 utilisateurs partageant un serveur Ollama. Inférence concurrente sur deux GPU indépendants — chaque utilisateur a son flux dédié. Idéal pour les cabinets avec plusieurs collaborateurs.
Sur mesure · Rack 4U · Ollama serveur multi-tenant
Configurer ce rack →
CoreAI 128 Rack — 2× RTX 6000 PRO Blackwell (192 Go ECC)
✅ Tous les modèles Ollama en précision native · Fine-tuning 70B+ · Production 24/7
GPU professionnels avec mémoire ECC pour la production continue. 192 Go de VRAM ECC permettent d'exécuter les plus grands modèles open source en précision native (FP16). Fiabilité maximale pour les environnements critiques.
Installation sur site possible · Support dédié
Configurer ce rack →
Radiance PC Pro AI Ultra Threadripper
✅ Entraînement distribué · Pipelines RAG massifs · HPC · Fine-tuning intensif
La station ultime pour les environnements de production exigeants. Plateforme Threadripper PRO sTR5 extensible jusqu'à 96 cœurs et 2 To de RAM ECC. Pour les charges mixtes : Ollama + bases vectorielles + orchestration n8n + entraînement.
Sur mesure · Devis personnalisé · Installation sur site
Demander un devis →Quel PC pour Ollama selon votre profil ?
| Profil | Configuration | Modèle Ollama type | Budget |
|---|---|---|---|
| Découverte / petit usage personnel | RTX 5060 Ti 16 Go (CoreAI 16) | Qwen 3.5 14B, Llama 4 Scout | ~1 700€ |
| Cabinet libéral compact ⭐ | ASUS Ascent GX10 (GB10) | DeepSeek V4 Flash FP16, 200B+ | ~4 000€ |
| Développeur / data scientist | CoreAI 32 RTX 5070 Ti | Qwen2.5-Coder 32B, DeepSeek-R1 32B | ~2 400€ |
| Modèles 70B en local | CoreAI 64 RTX 5090 | Llama 3.3 70B Q4 | ~6 000€ |
| Équipe 5-20 utilisateurs partagés | Rack 2× RTX 5090 | Llama 3.3 70B FP16, multi-tenant | ~11 000€ |
| Production critique 24/7 | Rack 2× RTX 6000 ECC | Tous modèles, FP16 natif | ~28 000€ |
Cas d'usage Ollama par métier
- Avocats & notaires — Qwen 3.5 14B + Open WebUI : analyse de contrats, recherche dans les dossiers clients, rédaction d'actes. Tout en local, conforme RGPD et secret professionnel.
- Médecins & cliniques — Mistral Medium 3.5 + RAG : comptes-rendus dictés, analyse d'historiques patients, base documentaire médicale. Aucune donnée n'atteint un serveur cloud.
- Experts-comptables — DeepSeek-R2 8B + Phi-4 14B : analyse de bilans, détection d'anomalies, génération de rapports. Chiffres confidentiels jamais uploadés ailleurs.
- Développeurs — Qwen2.5-Coder 32B + API Ollama : completion de code dans VS Code/Cursor, debugging, refactoring. API compatible OpenAI, intégration en 3 lignes.
- PME & entreprises — Llama 4 Scout + n8n + base vectorielle : assistant IA interne connecté à vos docs, procédures, CRM. Déploiement sur réseau privé.
Questions fréquentes — PC pour Ollama
Quel GPU minimum pour Ollama ?
8 Go de VRAM (RTX 4060, RTX 5060) suffisent pour les modèles 7-8B comme Llama 3.1 8B ou DeepSeek-R2 8B. Mais le sweet spot 2026 est 16 Go de VRAM (RTX 5060 Ti 16 Go ou RTX 5070 Ti) — vous accédez aux modèles 13-14B et 17B MoE comme Qwen 3.5 14B, Mistral Medium 3.5 ou Llama 4 Scout, qui offrent une qualité largement supérieure pour seulement 200-400€ de différence de prix GPU.
Ollama fonctionne-t-il sans GPU dédié ?
Oui, Ollama peut tourner uniquement sur CPU. Mais les vitesses chutent à 3-8 tokens/seconde sur un modèle 7B avec un CPU moderne — frustrant pour un usage interactif. Un GPU avec 8 Go+ de VRAM est fortement recommandé pour une expérience fluide (30+ tok/s).
Comment savoir si mon modèle tient en VRAM ?
Lancez OLLAMA_DEBUG=1 ollama run [modèle] "test" — les logs indiquent combien de couches sont chargées en GPU vs CPU. Si moins de 100% sont sur GPU, votre modèle est trop gros. Choisissez une quantisation plus basse (Q4_K_M minimum) ou un modèle plus petit.
Faut-il Windows ou Linux pour Ollama ?
Les deux fonctionnent très bien. Linux (Ubuntu) offre les meilleures performances brutes et le support CUDA optimal. Windows 11 simplifie l'utilisation au quotidien et est compatible avec WSL2 pour les développeurs. Nos stations sont livrées avec l'OS de votre choix.
Quelle interface utiliser avec Ollama ?
Open WebUI est l'interface web la plus populaire en 2026 — chatGPT-like, déployable via Docker, gestion native du RAG documentaire. LM Studio propose une alternative bureau avec GUI intégré. Nos PC Radiance peuvent être livrés avec l'un ou l'autre pré-installé selon votre préférence.
Peut-on faire du fine-tuning sur ces PC Ollama ?
Le fine-tuning LoRA (paramètre-efficace) est possible à partir de 16 Go de VRAM pour des modèles 7B-8B. Pour du fine-tuning sérieux sur 14B-32B, il faut 24 Go+ (CoreAI 32 ou supérieur). Pour les modèles 70B+, comptez 48 Go+ avec multi-GPU.




