PC pour Qwen 3.6 : 27B dense ou 35B-A3B MoE, quel choix ?

Qwen 3.6 est le modèle open source le plus discuté du moment. Mais avant de choisir un PC pour le faire tourner, il faut répondre à une seule question : la version dense 27B, ou la version MoE 35B-A3B ? Tout en découle.

Les deux appartiennent à la même famille. Les deux tiennent sur une carte grand public en 4-bit. Les deux sont sous licence Apache 2.0. Mais elles se comportent très différemment à l'usage.

Ce guide tranche la question d'abord, puis vous indique le PC adapté à votre choix.


Qwen 3.6 : ce qu'il faut savoir

Qwen 3.6 est la dernière génération de modèles ouverts d'Alibaba. C'est un modèle multimodal (texte, image, vidéo), à raisonnement hybride, avec une fenêtre de contexte native exceptionnelle pouvant atteindre 1 million de tokens.

Deux variantes ouvertes comptent pour un usage local :

Qwen3.6-27B

Dense — qualité de code

  • 27 milliards de paramètres, tous actifs
  • Tient en environ 16,8 Go en 4-bit
  • Comportement stable et prévisible
  • Meilleur sur le code et le suivi d'instructions
  • Inclut la vision
  • Bénéficie de l'accélération DFlash (NVIDIA récent)

Qwen3.6-35B-A3B

MoE — vitesse

  • 35 milliards au total, 3 milliards actifs par token
  • Coût de calcul proche d'un modèle 3B
  • Qualité proche d'un modèle 35B dense
  • Très rapide : plus de 100 tokens/s rapportés sur GPU haut de gamme
  • Environ 21 Go en 4-bit, demande 24 Go de VRAM
  • Idéal pour les agents et le tool-use rapide
Comment lire « 35B-A3B » : c'est un modèle Mixture-of-Experts. Il contient 35 milliards de paramètres au total, mais un routeur n'en active qu'environ 3 milliards pour chaque token généré. Résultat : un coût de calcul d'un petit modèle, pour une qualité proche d'un grand. C'est ce qui permet d'atteindre plus de 100 tokens par seconde sur du matériel grand public.


Dense ou MoE : comment choisir

Vous codez beaucoup et la fiabilité du tool-calling compte avant tout
27B dense
Vous voulez la vitesse maximale sur une carte 24 Go pour du chat et des agents
35B-A3B
Vous avez 16 Go de VRAM et pas plus
27B dense
Vous montez des boucles d'agent longues avec beaucoup d'appels d'outils
27B dense
Vous privilégiez la réactivité ressentie en conversation
35B-A3B
Un point honnête sur la variante MoE. Des retours de la communauté signalent que le 35B-A3B peut, sur de longues boucles d'agent, répéter des appels d'outils échoués ou en sauter. La variante 27B dense est plus régulière sur ces tâches. Si vous câblez Qwen 3.6 dans un harnais d'agent (MCP, OpenCode, etc.), testez avant de vous engager. Par ailleurs, l'accélération DFlash, qui double la vitesse, ne fonctionne que sur la variante dense, pas sur le MoE.


VRAM : ce qu'il faut vraiment prévoir

Les chiffres ci-dessous valent pour un contexte court à moyen. Attention : avec le contexte étendu, le cache KV gonfle fortement la mémoire nécessaire.

Variante Quantization VRAM (contexte court) Carte conseillée
Qwen3.6-27B dense Q4_K_M environ 16,8 Go 16 Go tendu, 24 Go confortable
Qwen3.6-27B dense Q5_K_M environ 20 Go 24 Go
Qwen3.6-35B-A3B MoE Q4_K_M environ 21 Go 24 Go
Qwen3.6-35B-A3B MoE Q5_K_M environ 26 Go 32 Go
L'une ou l'autre, contexte très long Q4 + cache quantisé +20 à 40 Go de cache KV 32 Go et plus
Le piège des 16 Go. Le 35B-A3B en 4-bit ne tient pas confortablement sur 16 Go de VRAM, malgré ce qu'on lit parfois. Sur une carte de 16 Go, faites tourner la variante 27B dense, conçue pour cette enveloppe. Pour exploiter pleinement le 35B-A3B, visez 24 Go. Pour le contexte très long ou le Q5, visez 32 Go.
À savoir : avec llama.cpp et un cache KV quantisé (q8_0), l'empreinte mémoire du contexte est quasiment divisée par deux. C'est ce qui permet de loger un contexte étendu là où la configuration par défaut dépasse le budget. Sur nos machines, ces optimisations sont préconfigurées.


Lancer Qwen 3.6 en deux minutes

Le plus simple passe par Ollama. Choisissez la variante selon votre carte :

# Variante dense 27B (16 Go et plus)
ollama run qwen3.6:27b

# Variante MoE 35B-A3B (24 Go et plus)
ollama run qwen3.6:35b-a3b

# Pour un usage agent ou code, on passe souvent par llama.cpp
# avec cache KV quantisé pour le contexte long :
llama-server -m qwen3.6-35b-a3b-Q4_K_M.gguf \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --ctx-size 65536 --n-gpu-layers 99


Quel PC pour Qwen 3.6

Le choix de la machine découle directement de la variante visée. Voici nos stations adaptées, assemblées à Auriol (13390) et livrées dans toute l'UE, avec Ollama et Open WebUI préinstallés sur demande.

Radiance CoreAI 16 CoreAI 16 — RTX 5060 Ti 16 GoPour Qwen3.6-27B dense en Q4. Le point d'entrée. 1 703 € Radiance CoreAI 64 RTX 5090 CoreAI 64 — RTX 5090 32 GoLa référence : 35B-A3B en Q5, contexte long, plus de 100 tok/s. 6 042 € ASUS Ascent GX10 GB10 Mini Serveur IA NVIDIA GB10128 Go unifiés pour le contexte 1M token sans contrainte. 3 999 €
Important sur la RTX 5070 Ti et les cartes 16 Go. Pour le 35B-A3B précisément, 16 Go ne suffisent pas, même en Q4. Si votre objectif est le MoE 35B-A3B, orientez-vous vers une carte de 24 ou 32 Go (RTX 5090). Si vous restez sur 16 Go, le 27B dense est le bon choix, et il est excellent. Nous vous conseillons selon la variante visée.


Pourquoi faire tourner Qwen 3.6 en local

Au-delà de la confidentialité, Qwen 3.6 en local offre des avantages concrets pour qui veut une IA sérieuse à demeure.

  • Aucun coût récurrent. Pas d'abonnement, pas de facturation au token. Une fois la machine acquise, l'usage est illimité.
  • Données privées. Vos prompts, votre code, vos documents ne quittent jamais votre réseau.
  • Qualité de premier plan. Qwen 3.6 rivalise avec les meilleurs modèles ouverts sur le code, le raisonnement et les tâches d'agent.
  • Contexte massif. Jusqu'à 1 million de tokens en natif, pour traiter des bases de code entières ou de longs documents.
  • Licence Apache 2.0. Usage commercial libre, sans restriction.


En bref

27B dense ou 35B-A3B MoE ?
Dense pour le code et le tool-use fiable sur 16 Go. MoE pour la vitesse maximale sur 24 Go et plus.

Quelle VRAM minimum ?
16 Go pour le 27B dense. 24 Go pour le 35B-A3B. 32 Go pour le contexte long ou le Q5.

Qwen 3.6 est-il gratuit ?
Oui, open source sous Apache 2.0. Vous ne payez que le matériel.

Peut-on l'utiliser pour du code et des agents ?
Oui, c'est l'un de ses points forts. Pour les boucles d'agent longues, préférez le 27B dense, plus régulier.

Faut-il une grosse machine pour le contexte 1M token ?
Oui : le cache KV peut ajouter 20 à 40 Go. Le mini-serveur GB10 et ses 128 Go unifiés sont les plus à l'aise sur ce point.

Retour au blog

Votre devis pour une solution IA sur mesure sous 24–48h

Chaque projet Radiance commence par une conversation. Remplissez ce formulaire et un expert vous répondra rapidement avec une solution adaptée à votre métier et votre budget.

Réponse sous 24–48h ouvrés
Livraison dans toute l'Europe (UE)
Garantie 2 ans incluse
Installation sur site possible
Aucun engagement à la demande
Support dédié avant et après achat
01 Quel est votre usage principal de l'IA ?
Choix multiple.
02 Dans quel contexte sera utilisé le système ?
Choix unique.
03 Quel type de système recherchez-vous ?
Choix unique.
04 Quel système d'exploitation préférez-vous ?
Choix unique.
05 Quel est votre niveau d'attente sur le logiciel ?
Choix multiple.
06 Quel est votre budget indicatif ?
Choix unique.
07 Quand souhaitez-vous recevoir votre système ?
Choix unique.
08 Souhaitez-vous un accompagnement à la mise en place ?
Choix unique. Un technicien Radiance peut intervenir chez vous ou à distance.
09 Pays de livraison (UE uniquement) *
Nous livrons uniquement dans l'Union Européenne (UE).
10 Informations complémentaires (optionnel mais très utile)
Décrivez brièvement votre projet, vos contraintes spécifiques ou toute information utile.
11 Souhaitez-vous être recontacté pour échanger sur votre projet ?
Si vous choisissez "Devis uniquement", vous pourrez répondre à notre email pour poser vos questions et affiner le devis.
12 Email *
Nous vous enverrons le devis à cette adresse.

Plus de questions ?

Envoyez nous un email à contact@radiancesystems,eu ou contactez nous via le formulaire de contact, nous répondons en moins de 3h à toutes les demandes pendant les horaires de travail (Du lundi au vendredi de 9h à 17h).

📞 +33 4 65 84 48 21