PC pour agent IA Hermes local : modèle, contexte et VRAM
Share
La plupart des outils d'IA oublient tout dès que vous fermez la fenêtre. Hermes, l'agent autonome open source de Nous Research, fait l'inverse : il se souvient, apprend de chaque tâche, et s'améliore avec le temps. Et il peut tourner entièrement sur votre propre machine, sans clé API, sans cloud, sans coût par token.
Faire tourner un agent IA en local n'a rien à voir avec faire tourner un simple chatbot. Un agent enchaîne des dizaines d'étapes, appelle des outils, lit des résultats, décide de la suite, et garde tout ce contexte en mémoire pendant toute la session. Cela impose des contraintes matérielles précises, souvent mal comprises.
Ce guide explique ce qu'est l'agent Hermes, pourquoi le contexte est le vrai facteur déterminant, quel modèle lui associer, et quelle machine choisir pour le faire tourner sereinement à demeure.
Hermes, c'est quoi exactement ?
Il faut distinguer deux choses qui portent le même nom, et que l'on confond souvent.
D'un côté, il y a le framework Hermes Agent : un agent autonome open source, sous licence MIT, développé par Nous Research. C'est le logiciel qui orchestre les tâches, la mémoire et les outils. De l'autre, il y a les modèles Hermes (la série Hermes 4) : des modèles de langage affinés par la même équipe, spécialement pour le comportement agentique.
Le point essentiel : le framework Hermes est indépendant du modèle. Il fonctionne avec n'importe quel moteur exposant une API au format OpenAI. Vous pouvez donc l'alimenter avec un modèle Hermes, mais aussi avec Qwen, Gemma ou tout autre modèle local performant.
Ce que le framework Hermes sait faire
Mémoire persistante
Hermes conserve le contexte entre les sessions. Il ne repart pas de zéro à chaque démarrage : il se souvient de vos tâches, de vos préférences et de ce qu'il a déjà accompli.
Plus de 70 compétences intégrées
Recherche web, manipulation de fichiers, exécution de code, envoi de messages : Hermes embarque des dizaines d'outils prêts à l'emploi, extensibles à volonté.
Auto-amélioration
À partir des tâches réussies, Hermes crée des fiches de compétences réutilisables, stockées en Markdown, et les recharge quand une situation similaire se présente. Il s'auto-évalue régulièrement.
Automatisations programmées
Hermes peut exécuter des tâches récurrentes selon un calendrier : veille, rapports, surveillance, sans intervention de votre part.
Connexion aux messageries
Telegram, Discord, Slack, WhatsApp, Signal, email : vous pilotez votre agent depuis vos outils habituels, et il vous répond là où vous êtes.
Indépendant du modèle
N'importe quel moteur compatible OpenAI fait l'affaire. La boucle d'apprentissage fonctionne à l'identique avec un modèle local, sur votre machine.
Le vrai facteur déterminant : le contexte, pas la taille du modèle
C'est l'erreur la plus courante quand on dimensionne une machine pour un agent. On pense d'abord à la taille du modèle. En réalité, pour un agent, c'est la fenêtre de contexte qui pilote le besoin en mémoire.
Hermes consomme du contexte de façon agressive. Chaque appel d'outil, chaque résultat observé, chaque étape de raisonnement s'accumule dans le contexte. La documentation officielle impose un minimum de 64 000 tokens, et les modèles dont la fenêtre est plus petite sont tout simplement refusés au démarrage.
Concrètement, un modèle qui tient en 8 Go pour du chat simple peut en exiger 12 ou plus une fois la fenêtre de 64K activée. Et plus vous voulez de marge pour les raisonnements multi-étapes (128K et au-delà), plus la VRAM grimpe.
Quel modèle associer à Hermes en local
Le critère numéro un pour un agent n'est pas la culture générale du modèle, mais la fiabilité du tool-calling : sa capacité à appeler les bons outils, à lire les réponses, et à ne pas se perdre sur de longues boucles. Voici les meilleurs choix en 2026, par budget VRAM.
| Budget VRAM | Modèle conseillé | Pourquoi | Contexte 64K |
|---|---|---|---|
| 8 Go | Qwen3 8B | Meilleur tool-calling de sa catégorie | 10 à 12 Go, tendu |
| 16 Go | Qwen 3.5 / 3.6 27B | Tool-calling fiable, bon raisonnement | Confortable |
| 16 Go | Gemma 4 26B MoE | Meilleur équilibre vitesse-qualité | Confortable |
| 24 Go | Hermes 4.3 36B | Affiné agent, neutre, jusqu'à 512K contexte | Large marge |
| 24 Go | Hermes 4 35B-A3B (MoE) | Tenu une tâche de 100 étapes sans dériver | 128K possible |
Installer Hermes en local, étape par étape
Sur une machine équipée d'une carte NVIDIA récente, le parcours est simple. Hermes s'appuie sur Ollama comme moteur d'inférence local.
- Installez Ollama (version récente) et téléchargez le modèle visé.
- Configurez le modèle avec une fenêtre de contexte d'au moins 64K tokens.
- Installez le framework Hermes Agent (Python récent requis).
- Pointez Hermes vers votre instance Ollama locale (endpoint compatible OpenAI).
- Connectez vos messageries (Telegram, Discord, email) et lancez votre première tâche.
# Exemple : préparer un modèle 27B avec contexte 64K sous Ollama ollama pull qwen3.6:27b # Créer une variante avec contexte étendu pour Hermes cat > Modelfile <<'EOF' FROM qwen3.6:27b PARAMETER num_ctx 65536 PARAMETER temperature 0.6 PARAMETER top_p 0.95 EOF ollama create qwen3.6-agent -f Modelfile # Hermes pointe ensuite vers http://localhost:11434/v1
Pourquoi faire tourner son agent en local plutôt que dans le cloud
Un agent autonome connecté à vos fichiers, vos messageries et vos outils manipule, par nature, des données sensibles. Le faire tourner en local apporte des avantages décisifs.
- Confidentialité. Vos données, vos fichiers et vos conversations ne quittent jamais votre machine.
- Coût nul à l'usage. Un agent qui tourne en continu et enchaîne les tâches coûterait cher en API. En local, l'usage est illimité, sans facturation au token.
- Disponibilité. Pas de quota, pas de limite de requêtes, pas de coupure de service côté fournisseur.
- Contrôle total. Vous choisissez le modèle, les outils, les données accessibles, et vous gardez la main sur tout l'environnement.
- Fonctionnement continu. Un agent local peut tourner jour et nuit, pour de la veille ou des automatisations programmées, sans surcoût.
Quelle machine pour un agent Hermes local
Le bon dimensionnement dépend du modèle visé et de la fenêtre de contexte souhaitée. Rappelez-vous : le contexte de 64K, voire 128K, est le vrai moteur du besoin en VRAM. Voici nos stations adaptées, assemblées à Auriol (13390) et livrées dans toute l'UE, avec Ollama et l'environnement agent préconfigurés sur demande.
CoreAI 16 — RTX 5060 Ti 16 GoHermes + modèle 27B en 64K. Le point d'entrée idéal. 1 703 €
CoreAI 32 — RTX 5070 Ti 16 GoAgent réactif, contexte confortable, Ryzen 9 pour le tool-use. 2 442 €
CoreAI 64 — RTX 5090 32 GoModèles Hermes 4 dédiés, contexte 128K, longues boucles d'agent. 6 042 €
Mini Serveur IA NVIDIA GB10Agent en fonctionnement continu 24/7, contexte très long, 128 Go unifiés. 3 999 €
En bref
Hermes Agent est-il gratuit ?
Oui, open source sous licence MIT. Ollama et les modèles ouverts (Qwen, Gemma, Hermes) sont également gratuits. Le seul coût est le matériel et l'électricité.
Quel est le vrai facteur de dimensionnement ?
La fenêtre de contexte. Hermes exige au moins 64K tokens, ce qui fait grimper la VRAM bien plus que la taille du modèle seule.
Quelle VRAM minimum ?
8 Go pour un modèle 8B en 64K (tendu), 16 Go pour un modèle 27B confortable, 24 à 32 Go pour les modèles Hermes 4 dédiés et le contexte 128K.
Quel modèle choisir avec Hermes ?
Pour débuter, un 27B comme Qwen 3.5/3.6 sur 16 Go. Pour la fiabilité maximale sur de longues boucles, un modèle dense plutôt qu'un MoE. Pour aller plus loin, les modèles Hermes 4 dédiés.
Faut-il une connexion internet ?
Non pour l'inférence : tout tourne en local. Une connexion n'est utile que pour les compétences qui interrogent le web, si vous les activez.
Peut-on le faire tourner en continu ?
Oui. Un agent local peut fonctionner jour et nuit pour de la veille et des automatisations. Le mini-serveur GB10 est conçu pour ce type d'usage continu.




