Installer et utiliser Ollama : guide complet pour exécuter une IA en local (Windows, macOS, Linux) en 2026

Ollama permet d’exécuter des modèles d’IA générative directement sur votre machine, sans passer par un service cloud. Vous pouvez l’utiliser en ligne de commande, l’exposer sous forme d’API locale, puis le connecter à des interfaces Web ou à vos applications (Python, JavaScript, outils d’API, etc.). Voici un guide pas à pas pour installer Ollama, télécharger des modèles, choisir la bonne taille et intégrer le tout dans vos workflows.

Prérequis : ce qu’il faut avant d’installer Ollama

Avant de commencer, assurez-vous d’avoir :

  • Un OS compatible : Windows 10/11 récent, macOS, ou une distribution Linux moderne.

  • De la RAM : 16 Go minimum recommandés, davantage si vous visez des modèles volumineux.

  • Un GPU (optionnel mais conseillé) : NVIDIA CUDA ou AMD compatible. Ollama fonctionne aussi sur CPU, mais plus lentement.

1) Installer Ollama

Installation sur Windows

  1. Téléchargez l’installateur Windows depuis la page de téléchargement Ollama (ou via GitHub).

  2. Exécutez le fichier .exe et suivez l’assistant d’installation.

  3. Ouvrez PowerShell et vérifiez l’installation : ollama -v

Installation sur macOS

  1. Téléchargez Ollama.app.

  2. Déplacez l’application dans Applications puis ouvrez-la une première fois.

  3. Dans Terminal, vérifiez l’accès à la CLI : ollama -v

Installation sur Linux

  1. Ouvrez un terminal.

  2. Exécutez le script officiel : curl -fsSL https://ollama.com/install.sh | sh

  1. Vérifiez l’installation : ollama -v

2) Télécharger et lancer un modèle avec la CLI

Ollama télécharge les modèles à la demande, puis les conserve localement sur votre machine.

Lancer un modèle (téléchargement + exécution)

Exemple :

ollama run llama3.2
  • Au premier lancement, le modèle est téléchargé.

  • Vous obtenez ensuite un prompt du type “Send a message”.

  • Pour terminer la session : Ctrl+D ou Ctrl+C.

Commandes utiles

Lister les modèles installés : ollama list

Afficher les détails d’un modèle : ollama show llama3.2

Supprimer un modèle : ollama rm llama3.2

Lancer un autre modèle :
ollama run mistral
ollama run deepseek-r1
ollama run phi4

3) Bien choisir la taille de modèle (RAM, VRAM, usage)

La taille du modèle influe directement sur la vitesse, la consommation mémoire et la qualité. En pratique, commencez petit, puis montez en gamme si votre matériel le permet.

Petits modèles (légers)

Idéal pour démarrer, tester, ou machines modestes :

  • llama3.2:1b, moondream, phi4-mini, gemma2:2b (environ 1 à 3 Go)

Modèles intermédiaires (chat général + code)

Bon équilibre qualité / performances :

  • llama3.2 (3B), llama3.1:8b, mistral, phi4, gemma2 9B (environ 4 à 9 Go)

Très gros modèles (GPU/RAM solides requis)

À réserver aux configurations puissantes :

  • llama3.3 70B, llama3.2-vision:90b, llama3.1:405b, deepseek-r1:671b

4) Utiliser Ollama comme une API locale (HTTP)

Ollama expose une API HTTP en local, généralement sur :
http://localhost:11434

Démarrer le serveur

Souvent, le serveur démarre automatiquement quand vous lancez un modèle. Sinon :

ollama serve

Exemple : endpoint /api/generate

Requête simple (sans streaming) :

curl –location –request POST ‘http://localhost:11434/api/generate’ \
–header ‘Content-Type: application/json’ \
–data-raw ‘{
« model »: « llama3.2 »,
« prompt »: « Why is the sky blue? »,
« stream »: false
}’
  • stream: true renvoie les tokens au fil de l’eau (streaming).

Exemple : endpoint /api/chat (multi-messages)

Pour des conversations multi-tours, utilisez /api/chat avec une structure de messages de type :

  • role: system / user / assistant

  • content: texte

C’est l’approche à privilégier pour des chatbots, des assistants techniques, ou des workflows “agent”.

5) CPU, GPU et performances : optimiser Ollama

Ollama peut exécuter un modèle :

  • entièrement sur CPU (plus lent),

  • entièrement sur GPU si le modèle tient en VRAM,

  • ou en mode hybride (répartition CPU/GPU).

Bonnes pratiques :

  • Mettre à jour les pilotes GPU.

  • Choisir une taille de modèle cohérente avec votre VRAM.

  • Éviter les modèles ultra-lourds sur des cartes à faible VRAM.

Cas avancés :

  • Certains réglages (ex. num_gpu dans la configuration du modèle) peuvent influencer l’usage GPU.

  • Sur des rigs AMD multi-GPU, vous pouvez limiter les GPU visibles via des variables d’environnement comme ROCR_VISIBLE_DEVICES.

  • Sur certains laptops Linux avec iGPU, augmenter la mémoire allouée à l’iGPU dans le BIOS peut aider.

6) Ajouter une interface graphique : GUIs et Web UI compatibles Ollama

Vous n’êtes pas obligé de rester dans le terminal : plusieurs interfaces peuvent se brancher sur l’API d’Ollama.

Options populaires :

  • Ollama Desktop : application native (macOS/Windows) pour gérer modèles et chat.

  • Open WebUI / Ollama WebUI : interface web locale (souvent via Docker) connectée à Ollama.

  • LM Studio, SillyTavern, etc. : front-ends capables d’utiliser des endpoints compatibles.

Exemple de configuration typique avec Open WebUI

  1. Installez Open WebUI (Docker ou méthode “direct install” selon le guide choisi).

  2. Dans les paramètres, définissez l’URL backend :

    • http://host.docker.internal:11434 (souvent utile si WebUI est dans Docker)

    • ou l’IP/port de votre machine si accès distant.

  3. Sélectionnez un modèle (ex. llama3.2) et utilisez le chat dans le navigateur.

7) Intégrer Ollama dans vos apps et déboguer vos requêtes

Considérez Ollama comme un backend local “type OpenAI” :

  • De nombreux SDK Python et JavaScript peuvent pointer vers l’API Ollama simplement en changeant l’URL de base :

    • http://localhost:11434

Débogage rapide avec Postman / Apidog

Workflow efficace :

  1. Copiez un exemple cURL (comme celui de /api/generate).

  2. Collez-le dans votre client API (Postman, Apidog).

  3. Testez la réponse JSON, le streaming, puis ajustez prompt et paramètres.

Conclusion : Ollama, une IA locale simple à déployer et à connecter

Avec Ollama, vous pouvez installer une IA en local en quelques minutes, télécharger des modèles à la demande, exposer un endpoint HTTP, et brancher des interfaces modernes (Open WebUI) ou vos propres applications. Le point clé est de choisir un modèle adapté à votre RAM/VRAM : commencez petit ou intermédiaire, puis augmentez si vos ressources le permettent.