Ollama permet d’exécuter des modèles d’IA générative directement sur votre machine, sans passer par un service cloud. Vous pouvez l’utiliser en ligne de commande, l’exposer sous forme d’API locale, puis le connecter à des interfaces Web ou à vos applications (Python, JavaScript, outils d’API, etc.). Voici un guide pas à pas pour installer Ollama, télécharger des modèles, choisir la bonne taille et intégrer le tout dans vos workflows.
Prérequis : ce qu’il faut avant d’installer Ollama
Avant de commencer, assurez-vous d’avoir :
-
Un OS compatible : Windows 10/11 récent, macOS, ou une distribution Linux moderne.
-
De la RAM : 16 Go minimum recommandés, davantage si vous visez des modèles volumineux.
-
Un GPU (optionnel mais conseillé) : NVIDIA CUDA ou AMD compatible. Ollama fonctionne aussi sur CPU, mais plus lentement.
1) Installer Ollama
Installation sur Windows
-
Téléchargez l’installateur Windows depuis la page de téléchargement Ollama (ou via GitHub).
-
Exécutez le fichier .exe et suivez l’assistant d’installation.
-
Ouvrez PowerShell et vérifiez l’installation : ollama -v
Installation sur macOS
-
Téléchargez Ollama.app.
-
Déplacez l’application dans Applications puis ouvrez-la une première fois.
-
Dans Terminal, vérifiez l’accès à la CLI : ollama -v
Installation sur Linux
-
Ouvrez un terminal.
-
Exécutez le script officiel : curl -fsSL https://ollama.com/install.sh | sh
-
Vérifiez l’installation : ollama -v
2) Télécharger et lancer un modèle avec la CLI
Ollama télécharge les modèles à la demande, puis les conserve localement sur votre machine.
Lancer un modèle (téléchargement + exécution)
Exemple :
-
Au premier lancement, le modèle est téléchargé.
-
Vous obtenez ensuite un prompt du type “Send a message”.
-
Pour terminer la session : Ctrl+D ou Ctrl+C.
Commandes utiles
Lister les modèles installés : ollama list
Afficher les détails d’un modèle : ollama show llama3.2
Supprimer un modèle : ollama rm llama3.2
ollama run deepseek-r1
ollama run phi4
3) Bien choisir la taille de modèle (RAM, VRAM, usage)
La taille du modèle influe directement sur la vitesse, la consommation mémoire et la qualité. En pratique, commencez petit, puis montez en gamme si votre matériel le permet.
Petits modèles (légers)
Idéal pour démarrer, tester, ou machines modestes :
-
llama3.2:1b,moondream,phi4-mini,gemma2:2b(environ 1 à 3 Go)
Modèles intermédiaires (chat général + code)
Bon équilibre qualité / performances :
-
llama3.2 (3B),llama3.1:8b,mistral,phi4,gemma2 9B(environ 4 à 9 Go)
Très gros modèles (GPU/RAM solides requis)
À réserver aux configurations puissantes :
-
llama3.3 70B,llama3.2-vision:90b,llama3.1:405b,deepseek-r1:671b
4) Utiliser Ollama comme une API locale (HTTP)
Ollama expose une API HTTP en local, généralement sur :
http://localhost:11434
Démarrer le serveur
Souvent, le serveur démarre automatiquement quand vous lancez un modèle. Sinon :
Exemple : endpoint /api/generate
Requête simple (sans streaming) :
–header ‘Content-Type: application/json’ \
–data-raw ‘{
« model »: « llama3.2 »,
« prompt »: « Why is the sky blue? »,
« stream »: false
}’
-
stream: truerenvoie les tokens au fil de l’eau (streaming).
Exemple : endpoint /api/chat (multi-messages)
Pour des conversations multi-tours, utilisez /api/chat avec une structure de messages de type :
-
role:system/user/assistant -
content: texte
C’est l’approche à privilégier pour des chatbots, des assistants techniques, ou des workflows “agent”.
5) CPU, GPU et performances : optimiser Ollama
Ollama peut exécuter un modèle :
-
entièrement sur CPU (plus lent),
-
entièrement sur GPU si le modèle tient en VRAM,
-
ou en mode hybride (répartition CPU/GPU).
Bonnes pratiques :
-
Mettre à jour les pilotes GPU.
-
Choisir une taille de modèle cohérente avec votre VRAM.
-
Éviter les modèles ultra-lourds sur des cartes à faible VRAM.
Cas avancés :
-
Certains réglages (ex.
num_gpudans la configuration du modèle) peuvent influencer l’usage GPU. -
Sur des rigs AMD multi-GPU, vous pouvez limiter les GPU visibles via des variables d’environnement comme ROCR_VISIBLE_DEVICES.
-
Sur certains laptops Linux avec iGPU, augmenter la mémoire allouée à l’iGPU dans le BIOS peut aider.
6) Ajouter une interface graphique : GUIs et Web UI compatibles Ollama
Vous n’êtes pas obligé de rester dans le terminal : plusieurs interfaces peuvent se brancher sur l’API d’Ollama.
Options populaires :
-
Ollama Desktop : application native (macOS/Windows) pour gérer modèles et chat.
-
Open WebUI / Ollama WebUI : interface web locale (souvent via Docker) connectée à Ollama.
-
LM Studio, SillyTavern, etc. : front-ends capables d’utiliser des endpoints compatibles.
Exemple de configuration typique avec Open WebUI
-
Installez Open WebUI (Docker ou méthode “direct install” selon le guide choisi).
-
Dans les paramètres, définissez l’URL backend :
-
http://host.docker.internal:11434(souvent utile si WebUI est dans Docker) -
ou l’IP/port de votre machine si accès distant.
-
-
Sélectionnez un modèle (ex.
llama3.2) et utilisez le chat dans le navigateur.
7) Intégrer Ollama dans vos apps et déboguer vos requêtes
Considérez Ollama comme un backend local “type OpenAI” :
-
De nombreux SDK Python et JavaScript peuvent pointer vers l’API Ollama simplement en changeant l’URL de base :
-
http://localhost:11434
-
Débogage rapide avec Postman / Apidog
Workflow efficace :
-
Copiez un exemple cURL (comme celui de
/api/generate). -
Collez-le dans votre client API (Postman, Apidog).
-
Testez la réponse JSON, le streaming, puis ajustez prompt et paramètres.
Conclusion : Ollama, une IA locale simple à déployer et à connecter
Avec Ollama, vous pouvez installer une IA en local en quelques minutes, télécharger des modèles à la demande, exposer un endpoint HTTP, et brancher des interfaces modernes (Open WebUI) ou vos propres applications. Le point clé est de choisir un modèle adapté à votre RAM/VRAM : commencez petit ou intermédiaire, puis augmentez si vos ressources le permettent.








