OUTILS

Faire tourner Claude Code gratuitement — avec d'autres modèles que Claude

Tu gardes l'agent et l'interface de Claude Code, mais le cerveau devient un modèle gratuit (NVIDIA NIM) ou un modèle local (Ollama). Gratuit oui, qualité Claude non — voilà honnêtement comment le monter, et quand ça vaut vraiment le coup.

Par Mario, Fondateur Prompt Academy · 9 min de lecture · Gratuit, sans compte

Soyons clairs dès la première ligne : ce guide ne te donne pas Claude gratuitement. Personne ne peut faire ça. Ce qu'il te donne, c'est l'interface et l'agent de Claude Code branchés sur un autre cerveau — un modèle gratuit hébergé (NVIDIA NIM) ou un modèle open source qui tourne sur ta machine (via Ollama). Même terminal, mêmes commandes, mêmes habitudes. Seul le modèle derrière change.

Et il change pour de vrai : ce n'est plus Anthropic qui répond, c'est GLM, Llama, Qwen ou DeepSeek selon ce que tu branches. Gratuit oui, niveau Claude non. Pour apprendre, bricoler un side-project, tester une idée le soir sans regarder le compteur de l'API, c'est largement suffisant. Pour du travail sérieux sur un vrai dépôt, tu sentiras la différence — j'y reviens à la fin, sans langue de bois.

L'outil qui rend ça possible est open source : free-claude-code, du dev Alishahryar1. C'est un petit proxy que tu installes sur ta machine — pense à un standardiste qui intercepte les requêtes de Claude Code et les redirige (via la variable ANTHROPIC_BASE_URL) vers le modèle de ton choix au lieu des serveurs payants d'Anthropic.

Le deal, en une phrase

Tu échanges la qualité du modèle contre la gratuité. C'est tout. Le reste de l'expérience Claude Code — l'agent, les commandes, ta façon de bosser — ne bouge pas. Si ce troc te va, la suite te montre comment le monter en une dizaine de minutes.

Ce qu'il te faut avant de commencer

Rien d'exotique, et pas besoin de savoir coder : tu vas surtout copier-coller deux ou trois commandes.

Claude Code déjà installé et fonctionnel — tu sais lancer une session.
uv, le gestionnaire de paquets Python (celui qui installe le proxy). S'il te manque, le proxy te le dira.
Python 3.14, en version stable. C'est le point qui fait trébucher tout le monde 👇

Python 3.14 : prends une version finale, pas une bêta

Le proxy exige Python 3.14, mais les pré-versions bêta (3.14.0bX) plantent au démarrage (bug connu, issue #627 du dépôt). Installe une release stable — uv s'en charge proprement avec uv python install 3.14. Si fcc-server crashe au lancement, c'est presque toujours ça.

Le montage, étape par étape

Installe le proxy

Une commande pour la version stable de Python, une pour le proxy. uv gère tout, tu n'as rien à compiler. (Sur Windows, macOS ou Linux, c'est identique.)

Lance-le et ouvre la page de config

fcc-server démarre le proxy et expose une petite page d'administration sur ta seule machine — rien n'est en ligne, personne d'autre n'y a accès. Tu sais que c'est bon quand http://127.0.0.1:8082/admin s'ouvre dans ton navigateur.

Branche un modèle gratuit (NVIDIA NIM)

NVIDIA distribue des clés API gratuites, et c'est le provider conseillé pour démarrer car tout est pré-réglé dans l'outil. Tu récupères ta clé (2 minutes), tu la colles dans la section NVIDIA NIM de la page de config, le modèle par défaut est déjà sélectionné — tu cliques sur Sauvegarder. C'est la dernière vraie manip.

Lance Claude Code en mode gratuit

Dans un nouveau terminal (pas celui où tourne le proxy), tape fcc-claude. Claude Code s'ouvre exactement comme d'habitude — la seule différence est invisible : tes requêtes passent par ton proxy local et tapent sur le modèle gratuit.

L'installation, concrètement

Installer free-claude-code

bash

# 1. Une version STABLE de Python 3.14 (les bêtas crashent au démarrage)
uv python install 3.14
 
# 2. Installer le proxy depuis le dépôt
uv tool install git+https://github.com/Alishahryar1/free-claude-code.git

Le dépôt propose aussi un script d'installation officiel (curl … | sh sur macOS/Linux, irm … | iex sur Windows) — les deux marchent, la voie uv ci-dessus est juste la plus simple à reproduire partout. Ensuite, le lancement :

Lancer le proxy puis Claude Code

bash

# Terminal 1 — le proxy (laisse-le tourner)
fcc-server
# → ouvre http://127.0.0.1:8082/admin dans ton navigateur
 
# Terminal 2 — Claude Code branché sur le proxy
fcc-claude

Le raccourci paresseux (et très Prompt Academy)

Tu peux laisser Claude Code faire l'installation lui-même. Ouvre une session dans n'importe quel dossier et colle : « Installe l'outil open source free-claude-code (github.com/Alishahryar1/free-claude-code). Vérifie que uv est présent, fais uv python install 3.14 (version stable, pas une bêta), installe le proxy via uv tool install git+…, lance fcc-server en arrière-plan, puis ouvre http://127.0.0.1:8082/admin. Confirme quand l'admin est prête. » Laisse-le bosser et accepte ce qu'il propose — déléguer ce genre de corvée à l'agent, c'est exactement le réflexe à prendre.

La clé NVIDIA, concrètement

Va sur build.nvidia.com et crée un compte gratuit (email ou compte Google, pas de carte bancaire — une vérification par numéro de téléphone peut être demandée).
Sur la page d'un modèle, clique sur « Get API Key ».
Copie la clé : une longue suite qui commence par nvapi- (elle ne s'affiche qu'une fois).
Colle-la dans la section NVIDIA NIM de l'admin → Sauvegarder.

« Gratuit » ne veut pas dire « illimité »

C'est le piège du genre, alors autant te le dire franchement : le tier gratuit NVIDIA NIM est plafonné. Compte environ 40 requêtes par minute et un stock de crédits d'inférence fini (de l'ordre de 1 000 à l'inscription, jusqu'à ~5 000 sur demande). Une fois épuisés, tu tombes sur une erreur 402 — Cloud credits expired. C'est largement de quoi apprendre et bricoler, pas de quoi faire tourner une prod. Le quota exact dépend de ton compte et de ta région : ta console build.nvidia.com fait foi.

Petit point de vocabulaire utile : dans free-claude-code, NVIDIA NIM, Groq, Z.ai, Wafer… sont des providers (les serveurs qui font tourner les modèles), tandis que GLM, Llama, Qwen, DeepSeek sont des modèles (servis via ces providers). Tu choisis donc d'abord un provider, puis un modèle dans son catalogue.

Bonus — le mode 100 % local (zéro clé, zéro internet)

Tu veux aller plus loin et ne dépendre d'aucun compte ? Le proxy sait aussi parler aux modèles qui tournent directement sur ton ordi, via Ollama (le plus simple), LM Studio ou llama.cpp. Le principe : tu installes l'un d'eux, tu télécharges un modèle open source comme tu téléchargerais une app, tu le sélectionnes dans la page de config. Une fois le modèle récupéré, plus aucune clé ni connexion : tout reste sur ta machine, rien ne sort.

Sauf qu'ici, c'est ton PC qui fait tourner le cerveau — et c'est là qu'il faut être honnête sur le matériel. La règle simple : il te faut à peu près autant de VRAM (la mémoire de ta carte graphique) que la taille du modèle, plus une marge.

Taille du modèle	VRAM nécessaire (Q4)	Carte typique	Ce que tu peux en attendre
7B	~5 Go	8 Go (RTX 3060/4060)	Tâches simples, un fichier à la fois
14B	~9 Go	12 Go (RTX 4070)	Correct, mais encore limité
32B (le vraiment bon)	~21 Go	24 Go (RTX 3090/4090)	Compétitif — mais sature dès que le contexte grossit
Sans GPU	RAM uniquement	CPU	Un 7B tourne (~10-18 tokens/s), mais c'est lent

« Une carte correcte suffit » : oui et non

Une carte « correcte » (8 à 12 Go de VRAM) fait tourner du 7B/14B — pratique pour dépanner, insuffisant pour le modèle vraiment compétitif. Le meilleur modèle de code open source grand public, Qwen2.5-Coder 32B, réclame 24 Go et sature quand tu lui donnes un gros contexte. Si tu as un laptop bureautique de base, reste sur l'option NVIDIA NIM de l'étape 3.

Avant de te lancer : ce qu'il faut vraiment savoir

Deux points sérieux. Ni l'un ni l'autre n'est rédhibitoire, mais les ignorer serait malhonnête.

Côté règles : la ligne à ne pas franchir

Brancher Claude Code sur un modèle non-Anthropic via ANTHROPIC_BASE_URL est une pratique officiellement documentée par Anthropic (leur page « LLM gateway ») : tant que tu utilises ta propre clé d'un provider non-Anthropic, tu es dans les clous. Ce qui viole les conditions d'utilisation, en revanche, c'est de réutiliser le jeton de ton abonnement Claude (Free / Pro / Max) dans un outil tiers. La règle est simple : ne mélange jamais ton login d'abonnement Claude avec ce proxy. Ici on branche une clé NVIDIA (ou un modèle local), pas ton compte Claude — tu restes du bon côté.

Côté sécurité : ce proxy voit tout

Par conception, un proxy est un intermédiaire : il voit tous tes prompts et détient ta clé API (rangée dans sa config). Ce n'est pas théorique — en mars 2026, des paquets de l'outil LiteLLM ont été compromis sur PyPI avec un voleur d'identifiants. Trois réflexes de bon sens : épingle une version que tu as installée (ne mets pas à jour à l'aveugle), utilise une clé dédiée avec un plafond de dépense plutôt que ta clé principale, et n'expose jamais le port du proxy sur ton réseau (il écoute déjà en local-only sur 127.0.0.1, garde-le ainsi). Un coup d'œil au code avant d'installer, comme pour n'importe quel outil tiers, ne fait jamais de mal.

Alors, ça vaut le coup ?

Oui, pour apprendre. Si tu débutes avec Claude Code, que tu veux t'entraîner sur des exos, automatiser des petits trucs, tester des side-projects sans surveiller la facture — ce montage est parfait. Tu prends les réflexes de l'agent sans la barrière du coût, et tu bascules sur le vrai Claude le jour où le projet le mérite.

Non, pour le travail sérieux. Sur un vrai dépôt — plusieurs fichiers, gros contexte, refactos qui s'enchaînent — l'écart se voit : fenêtre de contexte plus courte, tool-calling moins fiable, vitesse qui décroche quand ça grossit. Le local et les modèles gratuits brillent sur la confidentialité et le coût nul, pas sur la parité de qualité. Pour ce travail-là, le vrai Claude reste le bon outil — et savoir quand chaque modèle vaut le coup, c'est précisément ce qui sépare ceux qui bricolent de ceux qui livrent.

§Le deal, en une phrase

§Ce qu'il te faut avant de commencer

§Le montage, étape par étape