PC pour agent IA Hermes local : modèle, contexte et VRAM

12 juin 2026

La plupart des outils d'IA oublient tout dès que vous fermez la fenêtre. Hermes, l'agent autonome open source de Nous Research, fait l'inverse : il se souvient, apprend de chaque tâche, et s'améliore avec le temps. Et il peut tourner entièrement sur votre propre machine, sans clé API, sans cloud, sans coût par token.

Faire tourner un agent IA en local n'a rien à voir avec faire tourner un simple chatbot. Un agent enchaîne des dizaines d'étapes, appelle des outils, lit des résultats, décide de la suite, et garde tout ce contexte en mémoire pendant toute la session. Cela impose des contraintes matérielles précises, souvent mal comprises.

Ce guide explique ce qu'est l'agent Hermes, pourquoi le contexte est le vrai facteur déterminant, quel modèle lui associer, et quelle machine choisir pour le faire tourner sereinement à demeure.

Hermes, c'est quoi exactement ?

Il faut distinguer deux choses qui portent le même nom, et que l'on confond souvent.

D'un côté, il y a le framework Hermes Agent : un agent autonome open source, sous licence MIT, développé par Nous Research. C'est le logiciel qui orchestre les tâches, la mémoire et les outils. De l'autre, il y a les modèles Hermes (la série Hermes 4) : des modèles de langage affinés par la même équipe, spécialement pour le comportement agentique.

Le point essentiel : le framework Hermes est indépendant du modèle. Il fonctionne avec n'importe quel moteur exposant une API au format OpenAI. Vous pouvez donc l'alimenter avec un modèle Hermes, mais aussi avec Qwen, Gemma ou tout autre modèle local performant.

Pourquoi Hermes a marqué les esprits : le secret mal gardé des modèles ouverts, c'est que la plupart sont entraînés sur des données de type conversation — questions-réponses, résumés, rédaction. Le comportement d'agent (lire la description d'un outil, décider de l'appeler, analyser la réponse JSON, choisir l'action suivante) y est très peu représenté. Hermes a été entraîné spécifiquement sur des traces agentiques réelles. C'est l'un des premiers agents locaux capables de tenir une tâche de recherche de cent étapes sans dérailler.

Ce que le framework Hermes sait faire

Mémoire persistante

Hermes conserve le contexte entre les sessions. Il ne repart pas de zéro à chaque démarrage : il se souvient de vos tâches, de vos préférences et de ce qu'il a déjà accompli.

Plus de 70 compétences intégrées

Recherche web, manipulation de fichiers, exécution de code, envoi de messages : Hermes embarque des dizaines d'outils prêts à l'emploi, extensibles à volonté.

Auto-amélioration

À partir des tâches réussies, Hermes crée des fiches de compétences réutilisables, stockées en Markdown, et les recharge quand une situation similaire se présente. Il s'auto-évalue régulièrement.

Automatisations programmées

Hermes peut exécuter des tâches récurrentes selon un calendrier : veille, rapports, surveillance, sans intervention de votre part.

Connexion aux messageries

Telegram, Discord, Slack, WhatsApp, Signal, email : vous pilotez votre agent depuis vos outils habituels, et il vous répond là où vous êtes.

Indépendant du modèle

N'importe quel moteur compatible OpenAI fait l'affaire. La boucle d'apprentissage fonctionne à l'identique avec un modèle local, sur votre machine.

Le vrai facteur déterminant : le contexte, pas la taille du modèle

C'est l'erreur la plus courante quand on dimensionne une machine pour un agent. On pense d'abord à la taille du modèle. En réalité, pour un agent, c'est la fenêtre de contexte qui pilote le besoin en mémoire.

Hermes consomme du contexte de façon agressive. Chaque appel d'outil, chaque résultat observé, chaque étape de raisonnement s'accumule dans le contexte. La documentation officielle impose un minimum de 64 000 tokens, et les modèles dont la fenêtre est plus petite sont tout simplement refusés au démarrage.

La contrainte qui change tout : Hermes exige au moins 64K tokens de contexte. Ce contexte vit dans la mémoire du GPU, en plus du poids du modèle. C'est ce cache de contexte (le cache KV) qui fait grimper la VRAM nécessaire, bien plus que le modèle lui-même. Dimensionner une machine pour un agent sans tenir compte du contexte mène systématiquement à des déconvenues.

Concrètement, un modèle qui tient en 8 Go pour du chat simple peut en exiger 12 ou plus une fois la fenêtre de 64K activée. Et plus vous voulez de marge pour les raisonnements multi-étapes (128K et au-delà), plus la VRAM grimpe.

Quel modèle associer à Hermes en local

Le critère numéro un pour un agent n'est pas la culture générale du modèle, mais la fiabilité du tool-calling : sa capacité à appeler les bons outils, à lire les réponses, et à ne pas se perdre sur de longues boucles. Voici les meilleurs choix en 2026, par budget VRAM.

Budget VRAM	Modèle conseillé	Pourquoi	Contexte 64K
8 Go	Qwen3 8B	Meilleur tool-calling de sa catégorie	10 à 12 Go, tendu
16 Go	Qwen 3.5 / 3.6 27B	Tool-calling fiable, bon raisonnement	Confortable
16 Go	Gemma 4 26B MoE	Meilleur équilibre vitesse-qualité	Confortable
24 Go	Hermes 4.3 36B	Affiné agent, neutre, jusqu'à 512K contexte	Large marge
24 Go	Hermes 4 35B-A3B (MoE)	Tenu une tâche de 100 étapes sans dériver	128K possible

Le couple recommandé pour débuter : Hermes Agent + un modèle 27B comme Qwen 3.5/3.6 sur une carte de 16 Go. C'est le meilleur point d'équilibre entre fiabilité, vitesse et budget. Pour exploiter pleinement les modèles Hermes 4 dédiés et de longues fenêtres de contexte, passez à 24 ou 32 Go.

Un mot honnête sur les variantes MoE. Les modèles Mixture-of-Experts comme le 35B-A3B sont rapides, mais des retours de la communauté signalent qu'ils peuvent, sur de très longues boucles d'agent, répéter ou sauter des appels d'outils. Les modèles denses (27B) sont souvent plus réguliers sur ces tâches. Si la fiabilité prime sur la vitesse pour vos agents, privilégiez un modèle dense et testez votre chaîne avant de l'industrialiser.

Installer Hermes en local, étape par étape

Sur une machine équipée d'une carte NVIDIA récente, le parcours est simple. Hermes s'appuie sur Ollama comme moteur d'inférence local.

Installez Ollama (version récente) et téléchargez le modèle visé.
Configurez le modèle avec une fenêtre de contexte d'au moins 64K tokens.
Installez le framework Hermes Agent (Python récent requis).
Pointez Hermes vers votre instance Ollama locale (endpoint compatible OpenAI).
Connectez vos messageries (Telegram, Discord, email) et lancez votre première tâche.

# Exemple : préparer un modèle 27B avec contexte 64K sous Ollama
ollama pull qwen3.6:27b

# Créer une variante avec contexte étendu pour Hermes
cat > Modelfile <<'EOF'
FROM qwen3.6:27b
PARAMETER num_ctx 65536
PARAMETER temperature 0.6
PARAMETER top_p 0.95
EOF
ollama create qwen3.6-agent -f Modelfile

# Hermes pointe ensuite vers http://localhost:11434/v1

Le piège silencieux : avec un agent, un mauvais format de template ou un contexte trop court ne produit pas une erreur claire, mais des échecs silencieux — appels d'outils ignorés, boucles qui tournent à vide. Le modèle, le moteur et le client doivent s'accorder sur la façon dont les schémas d'outils sont sérialisés. Sur nos machines, l'environnement est préconfiguré et testé pour éviter exactement ce type de problème.

Pourquoi faire tourner son agent en local plutôt que dans le cloud

Un agent autonome connecté à vos fichiers, vos messageries et vos outils manipule, par nature, des données sensibles. Le faire tourner en local apporte des avantages décisifs.

Confidentialité. Vos données, vos fichiers et vos conversations ne quittent jamais votre machine.
Coût nul à l'usage. Un agent qui tourne en continu et enchaîne les tâches coûterait cher en API. En local, l'usage est illimité, sans facturation au token.
Disponibilité. Pas de quota, pas de limite de requêtes, pas de coupure de service côté fournisseur.
Contrôle total. Vous choisissez le modèle, les outils, les données accessibles, et vous gardez la main sur tout l'environnement.
Fonctionnement continu. Un agent local peut tourner jour et nuit, pour de la veille ou des automatisations programmées, sans surcoût.

L'argument économique est réel. Un agent utilisé intensivement via une API cloud peut représenter plusieurs dizaines d'euros par mois, voire bien davantage en usage continu. Une station locale est un investissement unique : une fois acquise, votre agent tourne autant que vous le souhaitez, sans aucun coût récurrent au token.

Quelle machine pour un agent Hermes local

Le bon dimensionnement dépend du modèle visé et de la fenêtre de contexte souhaitée. Rappelez-vous : le contexte de 64K, voire 128K, est le vrai moteur du besoin en VRAM. Voici nos stations adaptées, assemblées à Auriol (13390) et livrées dans toute l'UE, avec Ollama et l'environnement agent préconfigurés sur demande.

CoreAI 16 — RTX 5060 Ti 16 GoHermes + modèle 27B en 64K. Le point d'entrée idéal. 1 703 € CoreAI 32 — RTX 5070 Ti 16 GoAgent réactif, contexte confortable, Ryzen 9 pour le tool-use. 2 442 € CoreAI 64 — RTX 5090 32 GoModèles Hermes 4 dédiés, contexte 128K, longues boucles d'agent. 6 042 € Mini Serveur IA NVIDIA GB10Agent en fonctionnement continu 24/7, contexte très long, 128 Go unifiés. 3 999 €

Pour un agent qui tourne en permanence, le mini-serveur GB10 est particulièrement adapté : silencieux, économe en énergie, et conçu pour fonctionner en continu sans mobiliser un poste de travail. C'est la machine idéale pour un agent de veille ou d'automatisation qui travaille jour et nuit sur votre réseau.

En bref

Hermes Agent est-il gratuit ?
Oui, open source sous licence MIT. Ollama et les modèles ouverts (Qwen, Gemma, Hermes) sont également gratuits. Le seul coût est le matériel et l'électricité.

Quel est le vrai facteur de dimensionnement ?
La fenêtre de contexte. Hermes exige au moins 64K tokens, ce qui fait grimper la VRAM bien plus que la taille du modèle seule.

Quelle VRAM minimum ?
8 Go pour un modèle 8B en 64K (tendu), 16 Go pour un modèle 27B confortable, 24 à 32 Go pour les modèles Hermes 4 dédiés et le contexte 128K.

Quel modèle choisir avec Hermes ?
Pour débuter, un 27B comme Qwen 3.5/3.6 sur 16 Go. Pour la fiabilité maximale sur de longues boucles, un modèle dense plutôt qu'un MoE. Pour aller plus loin, les modèles Hermes 4 dédiés.

Faut-il une connexion internet ?
Non pour l'inférence : tout tourne en local. Une connexion n'est utile que pour les compétences qui interrogent le web, si vous les activez.

Peut-on le faire tourner en continu ?
Oui. Un agent local peut fonctionner jour et nuit pour de la veille et des automatisations. Le mini-serveur GB10 est conçu pour ce type d'usage continu.

Retour au blog