PC pour Qwen 3.6 : 27B dense ou 35B-A3B MoE, quel choix ?

10 juin 2026

Qwen 3.6 est le modèle open source le plus discuté du moment. Mais avant de choisir un PC pour le faire tourner, il faut répondre à une seule question : la version dense 27B, ou la version MoE 35B-A3B ? Tout en découle.

Les deux appartiennent à la même famille. Les deux tiennent sur une carte grand public en 4-bit. Les deux sont sous licence Apache 2.0. Mais elles se comportent très différemment à l'usage.

Ce guide tranche la question d'abord, puis vous indique le PC adapté à votre choix.

Qwen 3.6 : ce qu'il faut savoir

Qwen 3.6 est la dernière génération de modèles ouverts d'Alibaba. C'est un modèle multimodal (texte, image, vidéo), à raisonnement hybride, avec une fenêtre de contexte native exceptionnelle pouvant atteindre 1 million de tokens.

Deux variantes ouvertes comptent pour un usage local :

Qwen3.6-27B

Dense — qualité de code

27 milliards de paramètres, tous actifs
Tient en environ 16,8 Go en 4-bit
Comportement stable et prévisible
Meilleur sur le code et le suivi d'instructions
Inclut la vision
Bénéficie de l'accélération DFlash (NVIDIA récent)

Qwen3.6-35B-A3B

MoE — vitesse

35 milliards au total, 3 milliards actifs par token
Coût de calcul proche d'un modèle 3B
Qualité proche d'un modèle 35B dense
Très rapide : plus de 100 tokens/s rapportés sur GPU haut de gamme
Environ 21 Go en 4-bit, demande 24 Go de VRAM
Idéal pour les agents et le tool-use rapide

Comment lire « 35B-A3B » : c'est un modèle Mixture-of-Experts. Il contient 35 milliards de paramètres au total, mais un routeur n'en active qu'environ 3 milliards pour chaque token généré. Résultat : un coût de calcul d'un petit modèle, pour une qualité proche d'un grand. C'est ce qui permet d'atteindre plus de 100 tokens par seconde sur du matériel grand public.

Dense ou MoE : comment choisir

Vous codez beaucoup et la fiabilité du tool-calling compte avant tout

27B dense

Vous voulez la vitesse maximale sur une carte 24 Go pour du chat et des agents

35B-A3B

Vous avez 16 Go de VRAM et pas plus

27B dense

Vous montez des boucles d'agent longues avec beaucoup d'appels d'outils

27B dense

Vous privilégiez la réactivité ressentie en conversation

35B-A3B

Un point honnête sur la variante MoE. Des retours de la communauté signalent que le 35B-A3B peut, sur de longues boucles d'agent, répéter des appels d'outils échoués ou en sauter. La variante 27B dense est plus régulière sur ces tâches. Si vous câblez Qwen 3.6 dans un harnais d'agent (MCP, OpenCode, etc.), testez avant de vous engager. Par ailleurs, l'accélération DFlash, qui double la vitesse, ne fonctionne que sur la variante dense, pas sur le MoE.

VRAM : ce qu'il faut vraiment prévoir

Les chiffres ci-dessous valent pour un contexte court à moyen. Attention : avec le contexte étendu, le cache KV gonfle fortement la mémoire nécessaire.

Variante	Quantization	VRAM (contexte court)	Carte conseillée
Qwen3.6-27B dense	Q4_K_M	environ 16,8 Go	16 Go tendu, 24 Go confortable
Qwen3.6-27B dense	Q5_K_M	environ 20 Go	24 Go
Qwen3.6-35B-A3B MoE	Q4_K_M	environ 21 Go	24 Go
Qwen3.6-35B-A3B MoE	Q5_K_M	environ 26 Go	32 Go
L'une ou l'autre, contexte très long	Q4 + cache quantisé	+20 à 40 Go de cache KV	32 Go et plus

Le piège des 16 Go. Le 35B-A3B en 4-bit ne tient pas confortablement sur 16 Go de VRAM, malgré ce qu'on lit parfois. Sur une carte de 16 Go, faites tourner la variante 27B dense, conçue pour cette enveloppe. Pour exploiter pleinement le 35B-A3B, visez 24 Go. Pour le contexte très long ou le Q5, visez 32 Go.

À savoir : avec llama.cpp et un cache KV quantisé (q8_0), l'empreinte mémoire du contexte est quasiment divisée par deux. C'est ce qui permet de loger un contexte étendu là où la configuration par défaut dépasse le budget. Sur nos machines, ces optimisations sont préconfigurées.

Lancer Qwen 3.6 en deux minutes

Le plus simple passe par Ollama. Choisissez la variante selon votre carte :

# Variante dense 27B (16 Go et plus)
ollama run qwen3.6:27b

# Variante MoE 35B-A3B (24 Go et plus)
ollama run qwen3.6:35b-a3b

# Pour un usage agent ou code, on passe souvent par llama.cpp
# avec cache KV quantisé pour le contexte long :
llama-server -m qwen3.6-35b-a3b-Q4_K_M.gguf \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --ctx-size 65536 --n-gpu-layers 99

Quel PC pour Qwen 3.6

Le choix de la machine découle directement de la variante visée. Voici nos stations adaptées, assemblées à Auriol (13390) et livrées dans toute l'UE, avec Ollama et Open WebUI préinstallés sur demande.

CoreAI 16 — RTX 5060 Ti 16 GoPour Qwen3.6-27B dense en Q4. Le point d'entrée. 1 703 €

CoreAI 64 — RTX 5090 32 GoLa référence : 35B-A3B en Q5, contexte long, plus de 100 tok/s. 6 042 €

Mini Serveur IA NVIDIA GB10128 Go unifiés pour le contexte 1M token sans contrainte. 3 999 €

Important sur la RTX 5070 Ti et les cartes 16 Go. Pour le 35B-A3B précisément, 16 Go ne suffisent pas, même en Q4. Si votre objectif est le MoE 35B-A3B, orientez-vous vers une carte de 24 ou 32 Go (RTX 5090). Si vous restez sur 16 Go, le 27B dense est le bon choix, et il est excellent. Nous vous conseillons selon la variante visée.

Pourquoi faire tourner Qwen 3.6 en local

Au-delà de la confidentialité, Qwen 3.6 en local offre des avantages concrets pour qui veut une IA sérieuse à demeure.

Aucun coût récurrent. Pas d'abonnement, pas de facturation au token. Une fois la machine acquise, l'usage est illimité.
Données privées. Vos prompts, votre code, vos documents ne quittent jamais votre réseau.
Qualité de premier plan. Qwen 3.6 rivalise avec les meilleurs modèles ouverts sur le code, le raisonnement et les tâches d'agent.
Contexte massif. Jusqu'à 1 million de tokens en natif, pour traiter des bases de code entières ou de longs documents.
Licence Apache 2.0. Usage commercial libre, sans restriction.

En bref

27B dense ou 35B-A3B MoE ?
Dense pour le code et le tool-use fiable sur 16 Go. MoE pour la vitesse maximale sur 24 Go et plus.

Quelle VRAM minimum ?
16 Go pour le 27B dense. 24 Go pour le 35B-A3B. 32 Go pour le contexte long ou le Q5.

Qwen 3.6 est-il gratuit ?
Oui, open source sous Apache 2.0. Vous ne payez que le matériel.

Peut-on l'utiliser pour du code et des agents ?
Oui, c'est l'un de ses points forts. Pour les boucles d'agent longues, préférez le 27B dense, plus régulier.

Faut-il une grosse machine pour le contexte 1M token ?
Oui : le cache KV peut ajouter 20 à 40 Go. Le mini-serveur GB10 et ses 128 Go unifiés sont les plus à l'aise sur ce point.

Retour au blog

Plus de questions ?

Envoyez nous un email à contact@radiancesystems,eu ou contactez nous via le formulaire de contact, nous répondons en moins de 3h à toutes les demandes pendant les horaires de travail (Du lundi au vendredi de 9h à 17h).

📞 +33 4 65 84 48 21

PC pour Qwen 3.6 : 27B dense ou 35B-A3B MoE, quel choix ?

Qwen 3.6 : ce qu'il faut savoir

Qwen3.6-27B

Qwen3.6-35B-A3B

Dense ou MoE : comment choisir

VRAM : ce qu'il faut vraiment prévoir

Lancer Qwen 3.6 en deux minutes

Quel PC pour Qwen 3.6

Pourquoi faire tourner Qwen 3.6 en local

En bref

Découvrez notre gamme de PC pour IA Local

Radiance PC CoreIA 16 RTX 5060 TI 16Go

Radiance PC CoreIA 16 RTX 5060 TI 16Go

Radiance PC CoreIA 32 RTX 5070 Ti

Radiance PC CoreIA 32 RTX 5070 Ti

Mini Serveur IA - NVIDIA GB10, 128 Go LPDDR5X, ASUS Ascent

Mini Serveur IA - NVIDIA GB10, 128 Go LPDDR5X, ASUS Ascent

Radiance PC CoreIA 64 RTX 5090

Radiance PC CoreIA 64 RTX 5090

Radiance PC CoreIA 128 Rack 2×5090

Radiance PC CoreIA 128 Rack 2×5090

Radiance PC Pro IA Ultra Threadripper

Radiance PC Pro IA Ultra Threadripper

Radiance PC CoreIA 128 Rack 2× RTX 6000 PRO

Radiance PC CoreIA 128 Rack 2× RTX 6000 PRO

Votre devis pour une solution IA sur mesure sous 24–48h

Plus de questions ?

Autres articles

IA locale pour notaire : actes et due diligence...

IA locale pour notaire : actes et due diligence...

IA locale pour avocat : analyse de contrats et ...

IA locale pour avocat : analyse de contrats et ...

Où acheter un PC pour l'IA locale : le guide ho...

Où acheter un PC pour l'IA locale : le guide ho...

Pays/région

Langue