Aria Lab

Base de connaissance maker — cartes, composants, projets et comparatifs.

—

Cartes

—

Familles

—

WiFi

—

Bluetooth

🔌

Bibliothèque Cartes

ESP32, Arduino, RPi, STM32…

📊

Comparatif Specs

Tableau trié par n'importe quelle colonne

⚖️

Comparer des cartes

2 ou 3 cartes côte à côte

🛒

Meilleurs Prix

AliExpress vs Amazon comparés

📝

Notes & Projets

Conversations et idées sauvegardées

🔌 Bibliothèque de cartes …

Filtres avancés

GPIO minimum : 0

Flash minimum

RAM minimum

Prix max : 50 €

⏳

📊 Comparatif technique Cliquer sur un en-tête pour trier

⚖️ Comparer des cartes

Sélectionne 2 cartes pour les comparer

🛒 Comparatif Prix AliExpress · Amazon

🛒

Clique sur "Actualiser" pour charger les prix Amazon en temps réel.

📝 Notes & Projets

🧠 Guide IA Locale — Tout ce qu'il faut savoir Vocabulaire, fonctionnement, hardware, comparatifs — résumé de nos sessions

Sections 📖 Vocabulaire ⚙️ Fonctionnement LLM 💾 RAM & Bande passante 🔌 PCIe & Mémoire unifiée 🖥️ Hardware comparé 🤖 Modèles LLM 🔀 Routing multi-modèles 🎓 Fine-tuning

📖 Vocabulaire essentiel

LLM

Large Language Model — modèle de langage avec des milliards de paramètres entraîné sur du texte.

Paramètres

Les "poids" d'un modèle — des milliards de nombres qui encodent la connaissance. 7B = 7 milliards. Ils ne changent pas lors de l'utilisation, seulement lors du fine-tuning.

Inférence

Utiliser un LLM existant pour générer une réponse. Peu de GPU nécessaire, beaucoup de RAM et de bande passante.

Fine-tuning

Ré-entraîner un modèle existant pour ajuster les VALEURS de ses poids (pas leur nombre). Nécessite CUDA et beaucoup de ressources.

Tokens/sec

Vitesse de génération — nombre de mots (~¾ de mot par token) produits par seconde. Dépend directement de la bande passante mémoire.

Quantization (Q4/Q8)

Compression des poids pour réduire la taille en RAM. Q4 = 4 bits par poids (~2× plus petit que Q8), légère perte de qualité. Q8 ≈ qualité max.

TOPS

Tera Operations Per Second — milliards d'opérations entières/sec (INT8). Mesure les NPU. Souvent marketing pour LLMs : un NPU 50 TOPS ne sait pas faire tourner un LLM.

TFLOPS

Tera FLOPS — milliards d'opérations flottantes/sec. Mesure les GPU. Utile pour le fine-tuning et les serveurs multi-utilisateurs, pas pour l'inférence solo.

NPU

Neural Processing Unit — puce dédiée aux micro-tâches IA (reconnaissance vocale, effets vidéo). Ultra sobre (~0,5W). Ne fait pas tourner de LLMs. Présent dans Ryzen AI, Snapdragon X.

VRAM

Mémoire vidéo d'un GPU dédié (GDDR7). Très rapide (600+ GB/s) mais très chère. Max 24GB sur les cartes grand public = impossible de charger un modèle 70B.

Mémoire unifiée

Architecture Apple Silicon : CPU, GPU et RAM dans le même package physique (µm de distance). Une seule mémoire partagée, haute bande passante, pas de goulot PCIe. La LPDDR5X soudée des mini PC AMD fonctionne sur le même principe mais la RAM reste sur la carte mère (mm de distance, bus externe).

PCIe (PCI Express)

Bus reliant le GPU à la carte mère. PCIe 4.0 x16 = ~32 GB/s, PCIe 5.0 x16 = ~64 GB/s. Rapide pour le transfert de données entre composants, mais 15–30× plus lent qu'une VRAM ou mémoire unifiée. Goulot rédhibitoire pour les LLMs si on essaie de piocher dans la RAM système depuis un GPU RTX.

Resizable BAR / Smart Access Memory

Feature Nvidia/AMD permettant au GPU d'accéder directement à la RAM système via PCIe. Utile pour charger des modèles trop gros pour la VRAM (mode hybride VRAM+RAM dans llama.cpp via -ngl). Résultat : 2–5 tok/s au lieu de 20+ tok/s full VRAM. Lent mais fonctionnel.

Bande passante mémoire

Vitesse à laquelle le CPU/GPU lit la RAM (GB/s). C'est LE goulot pour l'inférence LLM en usage solo. Plus c'est élevé = plus de tokens/sec.

LPDDR5X

Mémoire mobile (Low Power DDR5X) utilisée dans les mini PC et Apple. ~256 GB/s quand soudée proche du SoC. Moins chère que GDDR, permet 128GB à prix raisonnable.

GDDR7

Mémoire GPU dédiée. Ultra rapide (600+ GB/s) mais ~10× plus chère que LPDDR5X. Impossible d'en mettre 128GB sans atteindre des prix de datacenter.

CUDA

Écosystème NVIDIA (langage + outils + bibliothèques) pour le calcul GPU. Standard industriel. Indispensable pour le fine-tuning. Absent sur AMD/Apple = logiciels moins optimisés.

Ollama

Outil open source pour télécharger et faire tourner des LLMs localement. Simple, fonctionne sur Apple/AMD/NVIDIA. Interface API compatible OpenAI.

RAG

Retrieval Augmented Generation — donner à un LLM accès à tes fichiers en temps réel sans le ré-entraîner. Idéal pour indexer des notes, plans ESP32, etc.

Routeur LLM

Script qui analyse chaque question et redirige vers le bon modèle (petit/rapide pour les tâches simples, grand/lent pour le raisonnement complexe).

⚙️ Comment fonctionne l'inférence LLM

Tu envoies un message
Le texte est découpé en tokens (~¾ de mot chacun)

→

Lecture des poids
Pour chaque token à générer, le GPU lit tous les paramètres du modèle depuis la RAM
70B Q4 = lire ~40GB en boucle

→

Calcul matriciel
Multiplications matricielles pour prédire le prochain token
Le GPU tourne à ~5% pour 1 utilisateur

→

Token généré
Un mot est produit. Retour à l'étape 2 jusqu'à la fin de la réponse.

Le vrai goulot d'étranglement : La lecture RAM (étape 2) est bien plus lente que le calcul (étape 3). Le GPU attend la RAM. C'est pour ça que la bande passante mémoire = tokens/sec, pas la puissance GPU brute.

Formule : tokens/sec ≈ bande_passante_GB/s ÷ taille_modèle_GB

Avec plusieurs utilisateurs simultanés : Le goulot bascule sur la puissance de calcul (les TFLOPS). C'est pour ça que les datacenters (ChatGPT, etc.) ont besoin de H100 à 30 000€ — ils servent des millions de requêtes en parallèle.

💾 RAM, VRAM & Bande passante

Type	Où	Bande passante	Capacité max grand public	Prix relatif
GDDR7	VRAM GPU dédié	600–1000 GB/s	24 GB	🔴 Très cher (~10× LPDDR)
LPDDR5X soudée	Mini PC / SoC	100–256 GB/s	128 GB	🟢 Abordable
Mémoire unifiée Apple	Package SoC Apple	273–546 GB/s	192 GB (M4 Ultra)	🟡 Cher mais justifié
DDR5 carte mère	PC bureau classique	50–80 GB/s	192 GB	🟢 Bon marché

Pourquoi pas 128 GB de GDDR7 ? Mettre 128 GB de GDDR7 sur une carte coûterait ~3 000€ rien qu'en puces mémoire. C'est pour ça qu'une H100 80 GB coûte 30 000€. Apple a contourné ça avec de la LPDDR moins chère partagée CPU/GPU dans le même package.

✅ RAM = Quels modèles tu peux charger

6 GB VRAM (RTX 3050) → max Phi-4 4B
16 GB → max Llama 3.1 13B Q4
24 GB VRAM → max 20B Q4 (70B impossible)
64 GB unifiée → 70B Q4 confortable
128 GB unifiée → 70B Q8 (qualité max) + modèles 100B+

⚡ Bande passante = Vitesse de génération

~50 GB/s (DDR5 bureau) → ~3 tok/s sur 70B
~168 GB/s (RTX 3050 6GB) → rapide sur petits modèles, 70B impossible
~256 GB/s (Ryzen AI MAX+) → ~11 tok/s sur 70B Q4
~273 GB/s (Mac Mini M4 Pro) → ~17 tok/s sur 70B Q4
~546 GB/s (Mac Studio M4 Max) → ~30 tok/s sur 70B Q4

🔌 PCIe, LPDDR soudée & Mémoire unifiée

LPDDR5X soudée ≈ mémoire unifiée ? Oui dans le principe — CPU, GPU et NPU partagent le même pool de RAM dans les deux cas, et c'est précisément pour ça qu'elle est soudée (chemin le plus court). La différence : chez Apple la RAM est dans le même package physique que la puce (quelques micromètres), chez AMD elle est soudée sur la carte mère (quelques millimètres + bus externe).

🍎 Apple Silicon — UMA

CPU + GPU + NPU + RAM dans le même boîtier
Chemin physique : quelques µm
Bus mémoire direct : 273–546 GB/s
Zéro goulot intermédiaire
Apple appelle ça "Unified Memory Architecture"

🔵 AMD Ryzen AI MAX — LPDDR soudée

CPU + GPU + NPU dans le SoC, RAM soudée sur la carte mère
Chemin physique : quelques mm + bus externe
Bus mémoire : 256 GB/s (LPDDR5X-8000 256-bit)
Même principe, légèrement moins efficace
Avantage : 128 GB accessibles, vs 64 GB max Mac Mini

Pourquoi un GPU RTX ne peut pas piocher dans la RAM système ?

Liaison	Bande passante	Latence	Tok/s 70B (théorique)
PCIe 4.0 x16 (GPU→RAM système)	~32 GB/s	élevée	~0.7 tok/s 😱
PCIe 5.0 x16 (GPU→RAM système)	~64 GB/s	élevée	~1.4 tok/s
DDR5 système seul (sans GPU)	~80 GB/s	moyenne	~1.7 tok/s
RTX 4090 VRAM (modèle entier)	1008 GB/s	très faible	~50 tok/s ✅
Mini PC 128 GB LPDDR5X	256 GB/s	faible	~11 tok/s ✅

Mode hybride GPU+RAM (llama.cpp -ngl) — Il existe quand même ! Si tu as 24 GB de VRAM + 32 GB de RAM, tu peux charger une partie du modèle en VRAM et le reste en RAM. Les couches en VRAM tournent vite, les couches en RAM passent par PCIe. Résultat : 2–5 tok/s au lieu de 20+ tok/s full VRAM. Lent mais ça dépanne.

Pourquoi GDDR7 ne résout pas le problème de capacité ? 128 GB de GDDR7 coûterait ~3 000€ rien qu'en puces mémoire — la GDDR7 est ~10× plus chère que la LPDDR5X. C'est pour ça qu'une H100 80 GB coûte 30 000€. Apple contourne en utilisant de la LPDDR (moins chère, moins rapide) mais intégrée dans le package, ce qui compense partiellement la bande passante.

🖥️ Comparatif Hardware pour IA locale

Machine	RAM	Bande passante	Tok/s 70B Q4	Idle H24	Charge LLM	Prix €	OS
GMKtec NucBox G9 Pro	128 GB LPDDR5X	~256 GB/s	~11	~12W	~55W	989€	Win/Linux
Minisforum MS-A1	128 GB LPDDR5X	~256 GB/s	~11	~12W	~60W	1 049€	Win/Linux
GEEKOM AX9 Pro MAX	128 GB LPDDR5X	~256 GB/s	~11	~15W	~65W	1 299€	Win/Linux
Mac Mini M4 Pro 64GB	64 GB unifiée	273 GB/s	~17	6W ⚡	~50W	1 400€	macOS
Mac Studio M4 Max 128GB	128 GB unifiée	400 GB/s	~25	8W	~70W	2 500€	macOS
RTX 3050 6GB (ton PC)	6 GB VRAM	168 GB/s	❌ ne rentre pas	—	~80W	déjà là	Win
RTX 5070 Ti 16GB	16 GB VRAM	672 GB/s	❌ ne rentre pas	—	250W	~900€	Win
DGX Spark 128GB	128 GB unifiée	273 GB/s	~22	~15W	~150W	5 200€	Linux

Le paradoxe RTX : Une RTX 5070 Ti a 672 GB/s de bande passante et serait parfaite pour les LLMs... mais seulement 16 GB de VRAM. Un modèle 70B ne rentre pas. La GDDR7 est trop chère pour mettre 128 GB sur une carte grand public. Apple et AMD SoC contournent ça avec de la LPDDR soudée.

Pourquoi x86 (AMD/Intel) consomme 2× plus qu'Apple en idle ?
Architecture x86 = consommation statique incompressible même à 0% de charge. Windows en fond = ~15 services actifs en permanence. Apple Silicon (ARM) = cœurs réellement à 0W quand inactifs. À 6W idle, le Mac Mini consomme moins qu'une ampoule LED.

🤖 Modèles LLM open source vs Claude

Modèle	Taille	RAM Q4	Équivalent Claude	Code	Maths/Raisonnement	Général
Qwen2.5-7B	7B	5 GB	En dessous de Haiku	🟡	🟡	🟡
Phi-4 14B	14B	9 GB	> Haiku sur code/maths	🟢	🟢	🟡
Mistral Small 3.1 24B	24B	14 GB	≈ Haiku 3.5	🟡	🟡	🟢
Gemma 3 27B	27B	16 GB	≈ Haiku 3.5	🟡	🟡	🟢
Qwen2.5-32B	32B	20 GB	≈ Haiku 3.5+	🟢	🟢	🟢
DeepSeek-R1-Distill-32B	32B	20 GB	> Sonnet sur maths	🟢	🏆	🟡
Llama 3.3 70B	70B	40 GB	≈ Haiku 3.5+	🟢	🟢	🟢
Qwen2.5-72B ← recommandé	72B	42 GB	≈ Sonnet 4	🟢	🟢	🟢
DeepSeek-R1-Distill-70B	70B	42 GB	≈ Opus sur maths	🟢	🏆	🟢
Qwen2.5-72B Q8 ← qualité max	72B	70 GB	≈ Sonnet 4+	🟢	🟢	🟢

Sur un Minisforum MS-A1 128GB, tu peux charger Qwen2.5-72B en Q8 (70 GB) et avoir l'équivalent de Claude Sonnet 4 chez toi, pour ~44€/an d'électricité au lieu de ~200€/semaine sur AWS Bedrock.

🔀 Architecture multi-modèles recommandée

🟢 Flash — toujours en RAM

Qwen2.5-7B

5 GB RAM · ~80 tok/s

Commandes domotique simples
Questions cuisine/recettes
Conversation courante
→ Réponse en <1 seconde

🟡 Standard — chargé à la demande

Qwen2.5-32B

20 GB RAM · ~30 tok/s

Questions complexes
Recherche & synthèse
Analyse de données
→ Réponse en ~5 secondes

🔴 Expert — chargé à la demande

Qwen2.5-72B Q8 ou DeepSeek-R1-70B

45–70 GB RAM · ~11 tok/s

Code ESP32 / debug
Planification projets
Raisonnement complexe
→ Réponse en ~20–30 secondes

📊 Répartition estimée

80% des requêtes → Flash (~1s)
15% → Standard (~5s)
5% → Expert (~25s)

Total RAM utilisée : ~70 GB / 128 GB
Les 3 peuvent coexister en mémoire ✅

🎓 Fine-tuning vs Inférence

🟢 Inférence (utiliser un LLM)

Lit les poids, ne les modifie pas
Goulot = bande passante RAM
GPU utilisé à ~5% en usage solo
CUDA non obligatoire
Faisable sur mini PC

🔴 Fine-tuning (ré-entraîner)

Modifie les VALEURS des poids (pas leur nombre)
Nécessite poids + gradients + optimiseur = 3–6× plus de RAM
Goulot = puissance de calcul (TFLOPS)
CUDA quasi-obligatoire pour les outils
Techniquement faisable sur mini PC mais très lent

Idée reçue : Le fine-tuning ne change PAS le nombre de paramètres. Un modèle 70B reste 70B après fine-tuning. On ajuste les valeurs existantes, comme recalibrer une balance sans changer le nombre de ressorts.

Pour indexer tes propres fichiers (notes, projets ESP32, plans 3D) → pas besoin de fine-tuning. Le RAG (Retrieval Augmented Generation) est 100× plus simple et ne nécessite pas de GPU puissant. Outil recommandé : AnythingLLM + Ollama.