Aria

Aria Lab

Base de connaissance maker — cartes, composants, projets et comparatifs.

Cartes
Familles
WiFi
Bluetooth
🔌 Bibliothèque de cartes
Filtres avancés
📊 Comparatif technique Cliquer sur un en-tête pour trier
⚖️ Comparer des cartes
Sélectionne 2 cartes pour les comparer
🛒 Comparatif Prix AliExpress · Amazon
🛒
Clique sur "Actualiser" pour charger les prix Amazon en temps réel.
📝 Notes & Projets
🧠 Guide IA Locale — Tout ce qu'il faut savoir Vocabulaire, fonctionnement, hardware, comparatifs — résumé de nos sessions

📖 Vocabulaire essentiel

LLM
Large Language Model — modèle de langage avec des milliards de paramètres entraîné sur du texte.
Paramètres
Les "poids" d'un modèle — des milliards de nombres qui encodent la connaissance. 7B = 7 milliards. Ils ne changent pas lors de l'utilisation, seulement lors du fine-tuning.
Inférence
Utiliser un LLM existant pour générer une réponse. Peu de GPU nécessaire, beaucoup de RAM et de bande passante.
Fine-tuning
Ré-entraîner un modèle existant pour ajuster les VALEURS de ses poids (pas leur nombre). Nécessite CUDA et beaucoup de ressources.
Tokens/sec
Vitesse de génération — nombre de mots (~¾ de mot par token) produits par seconde. Dépend directement de la bande passante mémoire.
Quantization (Q4/Q8)
Compression des poids pour réduire la taille en RAM. Q4 = 4 bits par poids (~2× plus petit que Q8), légère perte de qualité. Q8 ≈ qualité max.
TOPS
Tera Operations Per Second — milliards d'opérations entières/sec (INT8). Mesure les NPU. Souvent marketing pour LLMs : un NPU 50 TOPS ne sait pas faire tourner un LLM.
TFLOPS
Tera FLOPS — milliards d'opérations flottantes/sec. Mesure les GPU. Utile pour le fine-tuning et les serveurs multi-utilisateurs, pas pour l'inférence solo.
NPU
Neural Processing Unit — puce dédiée aux micro-tâches IA (reconnaissance vocale, effets vidéo). Ultra sobre (~0,5W). Ne fait pas tourner de LLMs. Présent dans Ryzen AI, Snapdragon X.
VRAM
Mémoire vidéo d'un GPU dédié (GDDR7). Très rapide (600+ GB/s) mais très chère. Max 24GB sur les cartes grand public = impossible de charger un modèle 70B.
Mémoire unifiée
Architecture Apple Silicon : CPU, GPU et RAM dans le même package physique (µm de distance). Une seule mémoire partagée, haute bande passante, pas de goulot PCIe. La LPDDR5X soudée des mini PC AMD fonctionne sur le même principe mais la RAM reste sur la carte mère (mm de distance, bus externe).
PCIe (PCI Express)
Bus reliant le GPU à la carte mère. PCIe 4.0 x16 = ~32 GB/s, PCIe 5.0 x16 = ~64 GB/s. Rapide pour le transfert de données entre composants, mais 15–30× plus lent qu'une VRAM ou mémoire unifiée. Goulot rédhibitoire pour les LLMs si on essaie de piocher dans la RAM système depuis un GPU RTX.
Resizable BAR / Smart Access Memory
Feature Nvidia/AMD permettant au GPU d'accéder directement à la RAM système via PCIe. Utile pour charger des modèles trop gros pour la VRAM (mode hybride VRAM+RAM dans llama.cpp via -ngl). Résultat : 2–5 tok/s au lieu de 20+ tok/s full VRAM. Lent mais fonctionnel.
Bande passante mémoire
Vitesse à laquelle le CPU/GPU lit la RAM (GB/s). C'est LE goulot pour l'inférence LLM en usage solo. Plus c'est élevé = plus de tokens/sec.
LPDDR5X
Mémoire mobile (Low Power DDR5X) utilisée dans les mini PC et Apple. ~256 GB/s quand soudée proche du SoC. Moins chère que GDDR, permet 128GB à prix raisonnable.
GDDR7
Mémoire GPU dédiée. Ultra rapide (600+ GB/s) mais ~10× plus chère que LPDDR5X. Impossible d'en mettre 128GB sans atteindre des prix de datacenter.
CUDA
Écosystème NVIDIA (langage + outils + bibliothèques) pour le calcul GPU. Standard industriel. Indispensable pour le fine-tuning. Absent sur AMD/Apple = logiciels moins optimisés.
Ollama
Outil open source pour télécharger et faire tourner des LLMs localement. Simple, fonctionne sur Apple/AMD/NVIDIA. Interface API compatible OpenAI.
RAG
Retrieval Augmented Generation — donner à un LLM accès à tes fichiers en temps réel sans le ré-entraîner. Idéal pour indexer des notes, plans ESP32, etc.
Routeur LLM
Script qui analyse chaque question et redirige vers le bon modèle (petit/rapide pour les tâches simples, grand/lent pour le raisonnement complexe).

⚙️ Comment fonctionne l'inférence LLM

1
Tu envoies un message
Le texte est découpé en tokens (~¾ de mot chacun)
2
Lecture des poids
Pour chaque token à générer, le GPU lit tous les paramètres du modèle depuis la RAM
70B Q4 = lire ~40GB en boucle
3
Calcul matriciel
Multiplications matricielles pour prédire le prochain token
Le GPU tourne à ~5% pour 1 utilisateur
4
Token généré
Un mot est produit. Retour à l'étape 2 jusqu'à la fin de la réponse.
Le vrai goulot d'étranglement : La lecture RAM (étape 2) est bien plus lente que le calcul (étape 3). Le GPU attend la RAM. C'est pour ça que la bande passante mémoire = tokens/sec, pas la puissance GPU brute.

Formule : tokens/sec ≈ bande_passante_GB/s ÷ taille_modèle_GB
Avec plusieurs utilisateurs simultanés : Le goulot bascule sur la puissance de calcul (les TFLOPS). C'est pour ça que les datacenters (ChatGPT, etc.) ont besoin de H100 à 30 000€ — ils servent des millions de requêtes en parallèle.

💾 RAM, VRAM & Bande passante

TypeBande passanteCapacité max grand publicPrix relatif
GDDR7VRAM GPU dédié600–1000 GB/s24 GB🔴 Très cher (~10× LPDDR)
LPDDR5X soudéeMini PC / SoC100–256 GB/s128 GB🟢 Abordable
Mémoire unifiée ApplePackage SoC Apple273–546 GB/s192 GB (M4 Ultra)🟡 Cher mais justifié
DDR5 carte mèrePC bureau classique50–80 GB/s192 GB🟢 Bon marché
Pourquoi pas 128 GB de GDDR7 ? Mettre 128 GB de GDDR7 sur une carte coûterait ~3 000€ rien qu'en puces mémoire. C'est pour ça qu'une H100 80 GB coûte 30 000€. Apple a contourné ça avec de la LPDDR moins chère partagée CPU/GPU dans le même package.
✅ RAM = Quels modèles tu peux charger
  • 6 GB VRAM (RTX 3050) → max Phi-4 4B
  • 16 GB → max Llama 3.1 13B Q4
  • 24 GB VRAM → max 20B Q4 (70B impossible)
  • 64 GB unifiée → 70B Q4 confortable
  • 128 GB unifiée → 70B Q8 (qualité max) + modèles 100B+
⚡ Bande passante = Vitesse de génération
  • ~50 GB/s (DDR5 bureau) → ~3 tok/s sur 70B
  • ~168 GB/s (RTX 3050 6GB) → rapide sur petits modèles, 70B impossible
  • ~256 GB/s (Ryzen AI MAX+) → ~11 tok/s sur 70B Q4
  • ~273 GB/s (Mac Mini M4 Pro) → ~17 tok/s sur 70B Q4
  • ~546 GB/s (Mac Studio M4 Max) → ~30 tok/s sur 70B Q4

🔌 PCIe, LPDDR soudée & Mémoire unifiée

LPDDR5X soudée ≈ mémoire unifiée ? Oui dans le principe — CPU, GPU et NPU partagent le même pool de RAM dans les deux cas, et c'est précisément pour ça qu'elle est soudée (chemin le plus court). La différence : chez Apple la RAM est dans le même package physique que la puce (quelques micromètres), chez AMD elle est soudée sur la carte mère (quelques millimètres + bus externe).
🍎 Apple Silicon — UMA
  • CPU + GPU + NPU + RAM dans le même boîtier
  • Chemin physique : quelques µm
  • Bus mémoire direct : 273–546 GB/s
  • Zéro goulot intermédiaire
  • Apple appelle ça "Unified Memory Architecture"
🔵 AMD Ryzen AI MAX — LPDDR soudée
  • CPU + GPU + NPU dans le SoC, RAM soudée sur la carte mère
  • Chemin physique : quelques mm + bus externe
  • Bus mémoire : 256 GB/s (LPDDR5X-8000 256-bit)
  • Même principe, légèrement moins efficace
  • Avantage : 128 GB accessibles, vs 64 GB max Mac Mini

Pourquoi un GPU RTX ne peut pas piocher dans la RAM système ?

LiaisonBande passanteLatenceTok/s 70B (théorique)
PCIe 4.0 x16 (GPU→RAM système)~32 GB/sélevée~0.7 tok/s 😱
PCIe 5.0 x16 (GPU→RAM système)~64 GB/sélevée~1.4 tok/s
DDR5 système seul (sans GPU)~80 GB/smoyenne~1.7 tok/s
RTX 4090 VRAM (modèle entier)1008 GB/strès faible~50 tok/s ✅
Mini PC 128 GB LPDDR5X256 GB/sfaible~11 tok/s ✅
Mode hybride GPU+RAM (llama.cpp -ngl) — Il existe quand même ! Si tu as 24 GB de VRAM + 32 GB de RAM, tu peux charger une partie du modèle en VRAM et le reste en RAM. Les couches en VRAM tournent vite, les couches en RAM passent par PCIe. Résultat : 2–5 tok/s au lieu de 20+ tok/s full VRAM. Lent mais ça dépanne.
Pourquoi GDDR7 ne résout pas le problème de capacité ? 128 GB de GDDR7 coûterait ~3 000€ rien qu'en puces mémoire — la GDDR7 est ~10× plus chère que la LPDDR5X. C'est pour ça qu'une H100 80 GB coûte 30 000€. Apple contourne en utilisant de la LPDDR (moins chère, moins rapide) mais intégrée dans le package, ce qui compense partiellement la bande passante.

🖥️ Comparatif Hardware pour IA locale

MachineRAMBande passanteTok/s 70B Q4Idle H24Charge LLMPrix €OS
GMKtec NucBox G9 Pro128 GB LPDDR5X~256 GB/s~11~12W~55W989€Win/Linux
Minisforum MS-A1128 GB LPDDR5X~256 GB/s~11~12W~60W1 049€Win/Linux
GEEKOM AX9 Pro MAX128 GB LPDDR5X~256 GB/s~11~15W~65W1 299€Win/Linux
Mac Mini M4 Pro 64GB64 GB unifiée273 GB/s~176W ⚡~50W1 400€macOS
Mac Studio M4 Max 128GB128 GB unifiée400 GB/s~258W~70W2 500€macOS
RTX 3050 6GB (ton PC)6 GB VRAM168 GB/s❌ ne rentre pas~80Wdéjà làWin
RTX 5070 Ti 16GB16 GB VRAM672 GB/s❌ ne rentre pas250W~900€Win
DGX Spark 128GB128 GB unifiée273 GB/s~22~15W~150W5 200€Linux
Le paradoxe RTX : Une RTX 5070 Ti a 672 GB/s de bande passante et serait parfaite pour les LLMs... mais seulement 16 GB de VRAM. Un modèle 70B ne rentre pas. La GDDR7 est trop chère pour mettre 128 GB sur une carte grand public. Apple et AMD SoC contournent ça avec de la LPDDR soudée.
Pourquoi x86 (AMD/Intel) consomme 2× plus qu'Apple en idle ?
Architecture x86 = consommation statique incompressible même à 0% de charge. Windows en fond = ~15 services actifs en permanence. Apple Silicon (ARM) = cœurs réellement à 0W quand inactifs. À 6W idle, le Mac Mini consomme moins qu'une ampoule LED.

🤖 Modèles LLM open source vs Claude

ModèleTailleRAM Q4Équivalent ClaudeCodeMaths/RaisonnementGénéral
Qwen2.5-7B7B5 GBEn dessous de Haiku🟡🟡🟡
Phi-4 14B14B9 GB> Haiku sur code/maths🟢🟢🟡
Mistral Small 3.1 24B24B14 GB≈ Haiku 3.5🟡🟡🟢
Gemma 3 27B27B16 GB≈ Haiku 3.5🟡🟡🟢
Qwen2.5-32B32B20 GB≈ Haiku 3.5+🟢🟢🟢
DeepSeek-R1-Distill-32B32B20 GB> Sonnet sur maths🟢🏆🟡
Llama 3.3 70B70B40 GB≈ Haiku 3.5+🟢🟢🟢
Qwen2.5-72B ← recommandé72B42 GBSonnet 4🟢🟢🟢
DeepSeek-R1-Distill-70B70B42 GB≈ Opus sur maths🟢🏆🟢
Qwen2.5-72B Q8 ← qualité max72B70 GBSonnet 4+🟢🟢🟢
Sur un Minisforum MS-A1 128GB, tu peux charger Qwen2.5-72B en Q8 (70 GB) et avoir l'équivalent de Claude Sonnet 4 chez toi, pour ~44€/an d'électricité au lieu de ~200€/semaine sur AWS Bedrock.

🔀 Architecture multi-modèles recommandée

🟢 Flash — toujours en RAM
Qwen2.5-7B
5 GB RAM · ~80 tok/s
Commandes domotique simples
Questions cuisine/recettes
Conversation courante
→ Réponse en <1 seconde
🟡 Standard — chargé à la demande
Qwen2.5-32B
20 GB RAM · ~30 tok/s
Questions complexes
Recherche & synthèse
Analyse de données
→ Réponse en ~5 secondes
🔴 Expert — chargé à la demande
Qwen2.5-72B Q8 ou DeepSeek-R1-70B
45–70 GB RAM · ~11 tok/s
Code ESP32 / debug
Planification projets
Raisonnement complexe
→ Réponse en ~20–30 secondes
📊 Répartition estimée
80% des requêtes → Flash (~1s)
15% → Standard (~5s)
5% → Expert (~25s)

Total RAM utilisée : ~70 GB / 128 GB
Les 3 peuvent coexister en mémoire ✅

🎓 Fine-tuning vs Inférence

🟢 Inférence (utiliser un LLM)
  • Lit les poids, ne les modifie pas
  • Goulot = bande passante RAM
  • GPU utilisé à ~5% en usage solo
  • CUDA non obligatoire
  • Faisable sur mini PC
🔴 Fine-tuning (ré-entraîner)
  • Modifie les VALEURS des poids (pas leur nombre)
  • Nécessite poids + gradients + optimiseur = 3–6× plus de RAM
  • Goulot = puissance de calcul (TFLOPS)
  • CUDA quasi-obligatoire pour les outils
  • Techniquement faisable sur mini PC mais très lent
Idée reçue : Le fine-tuning ne change PAS le nombre de paramètres. Un modèle 70B reste 70B après fine-tuning. On ajuste les valeurs existantes, comme recalibrer une balance sans changer le nombre de ressorts.
Pour indexer tes propres fichiers (notes, projets ESP32, plans 3D) → pas besoin de fine-tuning. Le RAG (Retrieval Augmented Generation) est 100× plus simple et ne nécessite pas de GPU puissant. Outil recommandé : AnythingLLM + Ollama.