On ne wrappe pas l'API OpenAI pour vendre du buzzword. Chez Getup, on déploie des modèles open weights de pointe (Mistral 120B, DeepSeek-R1) en local sur notre NVIDIA DGX Spark, on construit des agents qui automatisent du vrai travail, et on intègre tout ça dans vos produits. +10 applications IA en production, dont nos propres agents qui ouvrent des Pull Requests sur notre code. Agence basée à Toulon, on intervient dans tout le Var.
120B+paramètres tournés en local (Mistral, DeepSeek-R1)
10+applications IA livrées
// POURQUOI NOUS CHOISIR
Pas un wrapper d'OpenAI, une vraie infra IA.
La plupart des "agences IA" font un appel à GPT-4 derrière un formulaire et facturent ça comme de l'IA. Nous, on a investi dans une NVIDIA DGX Spark (128GB de mémoire unifiée, 1 PetaFLOP en FP4) pour faire tourner des modèles open weights massifs en local, sans dépendre d'une API tierce et sans envoyer vos données chez un tiers. Mistral 120B et DeepSeek-R1 tournent dans notre infra, accessibles via API privée pour vos applications. On a aussi développé nos propres agents qui ouvrent des Pull Requests automatiquement sur notre code après avoir analysé un bug : c'est ça qu'on appelle pratiquer ce qu'on prêche.
Modèles locaux SOTA — Mistral 120B, DeepSeek-R1 tournés sur notre DGX Spark, pas d'appel API externe
Souveraineté des données — Vos PDF, vos bases, vos prompts ne quittent jamais nos serveurs ou les vôtres
Agents en production — Pas de POC qui finissent au tiroir : nos propres agents font tourner notre code
Quatre familles de projets, toutes basées sur des modèles open weights et notre infra locale. Pas de hype, des choses qui tournent.
01
120Bparamètres en local
Modèles open weights en local
On déploie Mistral 120B, DeepSeek-R1 ou un modèle plus léger (Qwen, Llama) sur votre infra ou la nôtre. Inférence via API privée OpenAI-compatible (vLLM, llama.cpp), quantification adaptée à votre budget GPU, monitoring de latence et coût. Vos données restent sous contrôle, pas de quota OpenAI à surveiller, pas de surprise tarifaire mensuelle.
Un agent IA n'est pas un chatbot. C'est un système qui prend des décisions, appelle des outils, écrit du code, ouvre des tickets. On a construit nos propres agents qui analysent les bugs remontés sur nos projets, écrivent un fix, ouvrent une Pull Request, et attendent la review humaine. Le même pattern marche pour qualifier des leads, traiter des emails, générer des rapports métier.
Vos 5000 PDF, vos contrats, vos fiches techniques : un Retrieval-Augmented Generation bien fait permet à un LLM de répondre précisément en citant ses sources. On indexe avec Qdrant ou pgvector, on choisit l'embedding adapté à votre langue (bge-m3, voyage-3, multilingual-e5), on évalue la qualité du retrieval avec des métriques sérieuses (recall, MRR), pas avec un "ça a l'air de marcher".
Vous avez déjà une application qui tourne. On y ajoute une couche IA utile : génération de résumés, classification automatique, recherche sémantique, modération. On respecte votre stack, on ne casse rien, on instrumente avec des feature flags pour rollback en un clic si le modèle dérape. L'IA doit servir le produit, pas l'inverse.
Nos bureaux sont installés à La Farlède, à 10 minutes de Toulon et de la mer. Un cadre de travail inspirant où l'on conçoit vos projets avec vue sur le Mont Coudon.
Ça dépend de trois choses. Confidentialité de vos données : si vos prompts contiennent des infos sensibles (médical, juridique, R&D), modèle local obligatoire. Volume : à partir de quelques millions de tokens par mois, le coût d'un modèle en local devient inférieur à GPT-4. Qualité : pour 90% des cas d'usage métier, Mistral 120B ou DeepSeek-R1 atteignent la qualité de GPT-4. Pour 10% des cas (raisonnement très complexe, code multilingue rare), GPT-4 ou Claude Sonnet restent en tête. On vous aide à choisir en fonction du use case.
Un POC RAG simple sur vos PDF : 5 000 à 12 000€ (2 à 4 semaines). Un agent métier intégré à votre application existante : 15 000 à 35 000€ (4 à 8 semaines). Un système multi-agents en production avec monitoring complet : 35 000 à 80 000€ (8 à 16 semaines). Si vous voulez tout héberger en local sur votre propre matériel, comptez 8 000 à 30 000€ en plus pour le hardware et le setup. Devis détaillé après un atelier de cadrage de 2h, gratuit.
Nulle part par défaut. On déploie les modèles soit sur votre infra (cloud privé, on-premise), soit sur notre DGX Spark à La Farlède. Aucun appel sortant vers OpenAI, Anthropic ou Google sans votre accord explicite. Si vous demandez une intégration GPT-4 (par exemple pour un sous-agent qui n'a pas accès aux données sensibles), on isole le périmètre et on documente précisément ce qui sort. Pour le RGPD, on fournit la documentation technique du pipeline et la base de traitement.
Non, et toute agence qui vous dit le contraire vous ment. Un dev senior comprend votre business, anticipe les conséquences d'un changement, négocie le scope, refuse une mauvaise idée. L'IA fait disparaître 60 à 80% du travail répétitif (boilerplate, tests, refactoring mécanique, code review de routine), ce qui libère votre senior pour les décisions architecturales. On le voit chez nous : nos agents font des PR, nos devs les valident et tranchent les choix de design. Personne n'a été remplacé, tout le monde produit plus.
Pour un cas simple (RAG sur 100-500 documents avec interface web) : 2 à 3 semaines. Pour un agent métier qui appelle vos APIs et prend des décisions : 4 à 6 semaines. Pour un système multi-agents complet avec orchestration : 8 à 12 semaines. On démarre toujours par un atelier de cadrage qui définit le périmètre, les métriques de succès et les garde-fous. Un POC sans métrique mesurable, ce n'est pas un POC, c'est une démo qui meurt après la réunion de présentation.
Dans l'écrasante majorité des cas, fine-tuner un modèle de 120 milliards de paramètres pour un cas d'usage métier est une mauvaise idée : coût élevé, données d'entraînement difficiles à constituer, risque de catastrophic forgetting. Le bon réflexe en 2026 : prompt engineering soigné + RAG sur vos données + few-shot examples. On garde le fine-tuning pour les cas où c'est vraiment justifié (langage très spécialisé, besoin de latence ultra-faible). On préfère le LoRA / QLoRA au full fine-tuning quand c'est nécessaire.
Sur notre DGX Spark, Mistral 120B en quantification 4-bit délivre 30 à 60 tokens par seconde selon la longueur du contexte. Un modèle plus léger (Qwen 32B, Mistral Small) monte à 100 tokens par seconde. Pour une UX confortable en streaming, c'est largement suffisant : l'utilisateur voit la réponse arriver mot par mot. Pour des cas avec contraintes temps réel strictes (< 100ms), on bascule sur des modèles spécialisés ou on cache les réponses fréquentes.
Tarifs 30 à 40% inférieurs aux agences IA parisiennes, même expertise technique (modèles open weights, agents, RAG, fine-tuning), et matériel local que peu d'agences ont (notre DGX Spark coûte le prix d'une voiture, on a fait le pari). Proximité aussi : RDV en présentiel à La Farlède, réactivité. On travaille avec des clients à Marseille, Nice, Paris, mais pour les entreprises du Var, on est à 20 minutes maximum.