Faire tourner un modèle d’IA directement sur son propre PC n’est plus réservé aux profils très techniques. Avec Ollama, il devient possible d’installer un grand modèle de langage sur Windows, macOS ou Linux, puis de l’utiliser en local depuis un terminal, une application ou même un script Python. L’intérêt est simple : pas de clé API, pas d’abonnement obligatoire, pas d’envoi systématique de vos prompts vers un service cloud. Une fois le modèle téléchargé, une grande partie de l’usage peut se faire hors ligne, sur votre propre machine.
Cela répond à trois besoins très concrets : la confidentialité, la maîtrise des coûts et la liberté de choisir ses modèles. Là où beaucoup d’outils d’IA dépendent d’une connexion permanente et d’une facturation à l’usage, une solution locale permet de garder la main sur ses données et sur son environnement de travail. En contrepartie, il faut accepter une limite évidente : les performances dépendront directement de la puissance de votre ordinateur.
Pourquoi lancer une IA en local change vraiment l’expérience
Utiliser une IA en local, ce n’est pas seulement faire la même chose qu’un assistant cloud, mais hors ligne. Cela change la logique d’usage. Vos échanges restent sur votre machine, les réponses peuvent être générées sans dépendre d’un serveur distant, et vous pouvez tester différents modèles selon vos besoins : rédaction, code, analyse de documents, vision, ou assistants techniques.
En pratique, cette approche est particulièrement utile pour les développeurs qui veulent éviter d’exposer du code sensible, les entreprises qui manipulent des données internes, les utilisateurs curieux qui veulent expérimenter sans frais récurrents, et les personnes qui souhaitent intégrer une IA dans leurs propres outils.
Ollama s’est imposé sur ce terrain parce qu’il simplifie énormément l’installation et la gestion des modèles. Le projet est disponible sur les principaux systèmes d’exploitation, propose une bibliothèque de modèles prête à l’emploi, et expose aussi une API locale pour brancher d’autres applications ou scripts.
De quoi a-t-on besoin avant de commencer ?
Sur le papier, la promesse est simple. Dans la réalité, il faut quand même un minimum de ressources. Pour un petit modèle, une machine récente avec 8 Go de RAM peut suffire. Pour une expérience plus confortable, surtout avec des modèles plus ambitieux, 16 Go de RAM ou davantage deviennent nettement plus réalistes. Il faut aussi prévoir plusieurs gigaoctets d’espace disque, car chaque modèle occupe de la place.
Autre point à garder en tête : le CPU seul fonctionne, mais ce sera souvent plus lent. Si votre machine dispose d’un GPU compatible et correctement configuré, l’expérience sera généralement plus fluide. Sur Linux, l’installation officielle d’Ollama passe par une commande shell, tandis que Windows et macOS peuvent aussi passer par un installateur dédié.
Étape 1 : installer Ollama sur son ordinateur
La méthode la plus rapide sur Linux consiste à lancer la commande d’installation officielle :
curl -fsSL https://ollama.com/install.sh | sh
Sur certaines distributions Linux, il peut être nécessaire d’installer d’abord des dépendances comme curl ou zstd. Il est aussi possible, selon les cas, de démarrer le service manuellement avec :
ollama serve
Sur Windows, Ollama propose également une commande PowerShell :
irm https://ollama.com/install.ps1 | iex
Et pour Windows comme macOS, il existe aussi un installateur graphique.
Une fois l’installation terminée, il suffit de vérifier que tout est bien en place :
ollama -v
Si la commande renvoie un numéro de version, c’est bon signe.
Étape 2 : télécharger un premier modèle
C’est là qu’Ollama devient intéressant. Le logiciel ne sert pas seulement à exécuter une IA : il facilite aussi le téléchargement et la gestion des modèles. Pour débuter, un petit modèle conversationnel reste souvent le meilleur choix.
Par exemple, pour récupérer Llama 3.2 dans sa variante par défaut :
ollama pull llama3.2:latest
Ollama propose aussi d’autres familles de modèles, y compris des modèles orientés code, vision ou raisonnement.
Pour voir quels modèles sont déjà présents sur votre machine :
ollama ls
Et pour afficher les caractéristiques d’un modèle :
ollama show llama3.2:latest
La commande show permet notamment de consulter l’architecture, le nombre de paramètres, la longueur de contexte ou encore certaines capacités du modèle.
Étape 3 : discuter avec une IA locale depuis le terminal
Une fois le modèle téléchargé, on peut immédiatement lancer une session interactive :
ollama run llama3.2:latest
Le terminal bascule alors dans un mode de chat. Vous pouvez poser une question simple, demander une explication technique, faire résumer un texte ou demander de reformuler un contenu. C’est la manière la plus directe de comprendre ce qu’apporte une IA locale : aucun tableau de bord complexe, aucun paramétrage cloud, juste une conversation qui tourne sur votre ordinateur.
L’interface CLI d’Ollama inclut aussi plusieurs commandes utiles dans la session, comme :
/setpour modifier certains paramètres,/showpour afficher des informations,/loadet/savepour recharger ou enregistrer un état,/clearpour vider le contexte, et/byepour quitter.
Il est aussi possible d’utiliser des triples guillemets pour saisir un prompt sur plusieurs lignes, ce qui est pratique pour coller un bloc de texte ou une consigne longue.
Peut-on vraiment utiliser l’IA hors ligne ?
Oui, avec une nuance importante. Le téléchargement initial du logiciel et des modèles nécessite Internet, mais une fois le modèle installé, la génération de texte peut se faire localement sans dépendre d’un serveur externe. C’est justement l’un des grands intérêts d’Ollama.
Il faut cependant distinguer deux choses : l’exécution d’un modèle local sur votre machine, et l’accès éventuel à des services externes si vous branchez Ollama à un outil tiers ou à une API cloud.
Par défaut, Ollama expose une API locale, ce qui permet de travailler intégralement en local si vous restez dans cet environnement.
Étape 4 : personnaliser le comportement du modèle
Un modèle local n’est pas figé. Vous pouvez modifier son comportement, notamment avec un system prompt. Dans le terminal interactif, il est possible de définir une consigne de style ou de ton, par exemple demander des réponses simples, pédagogiques, plus techniques, ou orientées développeur.
La logique est simple : vous définissez une consigne système, vous sauvegardez ce comportement sous un nouveau nom, puis vous relancez ensuite ce profil personnalisé.
Ollama permet aussi d’aller plus loin via les Modelfiles, qui servent à créer ou dériver un modèle avec des paramètres spécifiques. En clair, cela signifie que vous pouvez construire un assistant local plus adapté à votre usage : un modèle qui répond toujours en français, un assistant orienté code, un profil plus concis, ou un modèle optimisé pour relire des documents.
Étape 5 : brancher Ollama à Python
C’est souvent là que le local devient vraiment puissant. Une fois Ollama installé, vous pouvez l’utiliser comme moteur IA dans un script Python, une application web, un outil interne ou un pipeline d’automatisation.
Ollama dispose d’une bibliothèque Python officielle. Voici un exemple simple :
from ollama import chat
response = chat(
model=‘gemma3’,
messages=[
{‘role’: ‘user’, ‘content’: ‘Explique ce qu’est un qubit simplement.’}
]
)
print(response.message.content)
Cette approche est utile si vous voulez créer un chatbot privé, analyser automatiquement des textes, générer des résumés, ou intégrer une IA dans un outil métier.
Autre option : passer directement par l’API locale avec curl ou avec une bibliothèque comme LangChain si vous travaillez déjà dans cet écosystème. Dans ce cas, Ollama devient le backend local de votre application.
Étape 6 : utiliser Ollama pour le code et les outils agentiques
Ollama ne se limite plus au simple chat local. Le projet met aussi en avant ollama launch, une commande pensée pour installer et lancer plus facilement des outils de code comme Claude Code, Codex ou OpenCode, avec des modèles locaux ou cloud.
Sur certaines fiches de modèles, Ollama affiche directement des commandes prêtes à l’emploi. Cela ouvre des usages plus avancés pour les développeurs : autocomplétion et assistance dans le code, refactorisation, génération de fonctions, aide à la lecture d’un projet, ou agents capables d’enchaîner plusieurs actions.
Il faut toutefois rester réaliste : ce type d’usage demande souvent des modèles plus gros et surtout beaucoup plus de RAM et de VRAM. Sur une machine modeste, mieux vaut commencer petit, puis monter en gamme ensuite.
Quels modèles choisir quand on débute ?
C’est souvent la vraie question. Le bon modèle n’est pas le plus gros possible, mais celui qui correspond à votre matériel et à votre usage.
En pratique, pour discuter, résumer, reformuler ou tester localement, un petit modèle de chat suffit souvent. Pour le code, il vaut mieux viser un modèle spécialisé. Pour les images, il faut un modèle multimodal. Et pour de longs documents, la fenêtre de contexte devient importante.
Il faut donc raisonner selon trois critères : la qualité, la vitesse et la capacité matérielle.
Les avantages d’une IA locale
Le premier avantage est évident : la confidentialité. Quand un modèle tourne sur votre ordinateur, vous réduisez fortement l’exposition de vos données. C’est particulièrement utile pour du code source, des notes internes ou des documents sensibles.
Deuxième avantage : le coût maîtrisé. Vous payez le matériel et l’électricité, mais vous évitez la facturation à la requête ou au token sur beaucoup d’usages.
Troisième avantage : la flexibilité. Vous choisissez vos modèles, vos réglages, vos outils, et vous pouvez même créer vos propres variantes.
Enfin, l’IA locale est aussi une excellente manière d’apprendre. On comprend mieux la différence entre un modèle léger et un gros modèle, entre rapidité et précision, entre usage conversationnel et usage agentique.
Les limites à connaître avant de se lancer
Il ne faut pas idéaliser non plus. Une IA locale ne remplacera pas automatiquement les meilleurs services cloud sur toutes les tâches. Les modèles les plus puissants restent gourmands, et les gros contextes ou les tâches complexes peuvent vite mettre une machine à genoux.
Parmi les limites fréquentes, on retrouve des temps de réponse plus longs sur CPU, une consommation mémoire importante, un stockage vite saturé si l’on télécharge plusieurs modèles, et une qualité variable selon le modèle choisi.
Enfin, local ne veut pas dire magique. Il faut quand même apprendre un minimum de commandes, comprendre quel modèle installer, et accepter quelques essais avant de trouver le bon équilibre.
En résumé
Utiliser une IA en local sur son ordinateur est aujourd’hui beaucoup plus accessible qu’il y a encore peu de temps, et Ollama est l’un des outils qui rendent cette approche vraiment simple. Installation rapide, gestion centralisée des modèles, chat en terminal, API locale, intégration Python et prise en charge croissante d’outils de code : tout cela en fait une porte d’entrée très solide pour découvrir les LLM sur sa propre machine.
Pour débuter, le plus simple est de suivre cette logique : installer Ollama, télécharger un petit modèle, tester ollama run dans le terminal, puis expérimenter ensuite avec Python ou un outil de code.
Ce n’est pas forcément la solution idéale pour tout le monde. Mais pour celles et ceux qui veulent plus de contrôle, plus de confidentialité et moins de dépendance au cloud, c’est clairement une piste à explorer.








