MistralDeepSeekAgentsRAGDGX
// AGENCE DEVELOPPEMENT IA DANS LE VAR

DÉVELOPPEMENT IADANS LE VAR.

On ne wrappe pas l'API OpenAI pour vendre du buzzword. Chez Getup, on déploie des modèles open weights de pointe (Mistral 120B, DeepSeek-R1) en local sur notre NVIDIA DGX Spark, on construit des agents qui automatisent du vrai travail, et on intègre tout ça dans vos produits. +10 applications IA en production, dont nos propres agents qui ouvrent des Pull Requests sur notre code. Agence basée à Toulon, on intervient dans tout le Var.

1 PFLOPSsur NVIDIA DGX Spark (128GB unified)
120B+paramètres tournés en local (Mistral, DeepSeek-R1)
10+applications IA livrées
// POURQUOI NOUS CHOISIR

Pas un wrapper d'OpenAI,
une vraie infra IA.

La plupart des "agences IA" font un appel à GPT-4 derrière un formulaire et facturent ça comme de l'IA. Nous, on a investi dans une NVIDIA DGX Spark (128GB de mémoire unifiée, 1 PetaFLOP en FP4) pour faire tourner des modèles open weights massifs en local, sans dépendre d'une API tierce et sans envoyer vos données chez un tiers. Mistral 120B et DeepSeek-R1 tournent dans notre infra, accessibles via API privée pour vos applications. On a aussi développé nos propres agents qui ouvrent des Pull Requests automatiquement sur notre code après avoir analysé un bug : c'est ça qu'on appelle pratiquer ce qu'on prêche.

  • Modèles locaux SOTAMistral 120B, DeepSeek-R1 tournés sur notre DGX Spark, pas d'appel API externe
  • Souveraineté des donnéesVos PDF, vos bases, vos prompts ne quittent jamais nos serveurs ou les vôtres
  • Agents en productionPas de POC qui finissent au tiroir : nos propres agents font tourner notre code
Voir nos expertises
DGXSpark on-premise
// NOS SERVICES

Ce qu'on construit
avec l'IA.

Quatre familles de projets, toutes basées sur des modèles open weights et notre infra locale. Pas de hype, des choses qui tournent.

01
120Bparamètres en local

Modèles open weights en local

On déploie Mistral 120B, DeepSeek-R1 ou un modèle plus léger (Qwen, Llama) sur votre infra ou la nôtre. Inférence via API privée OpenAI-compatible (vLLM, llama.cpp), quantification adaptée à votre budget GPU, monitoring de latence et coût. Vos données restent sous contrôle, pas de quota OpenAI à surveiller, pas de surprise tarifaire mensuelle.

  • vLLM, llama.cpp, Ollama
  • Quantification GGUF / AWQ / GPTQ
  • API OpenAI-compatible privée
  • Monitoring latence et tokens
En savoir plus
02
24/7agents en autonomie

Agents autonomes

Un agent IA n'est pas un chatbot. C'est un système qui prend des décisions, appelle des outils, écrit du code, ouvre des tickets. On a construit nos propres agents qui analysent les bugs remontés sur nos projets, écrivent un fix, ouvrent une Pull Request, et attendent la review humaine. Le même pattern marche pour qualifier des leads, traiter des emails, générer des rapports métier.

  • Function calling et tool use
  • Orchestration multi-agents
  • Boucles plan/act/observe
  • Garde-fous et human-in-the-loop
En savoir plus
03
10k+docs indexables sans dégradation

RAG sur vos données métier

Vos 5000 PDF, vos contrats, vos fiches techniques : un Retrieval-Augmented Generation bien fait permet à un LLM de répondre précisément en citant ses sources. On indexe avec Qdrant ou pgvector, on choisit l'embedding adapté à votre langue (bge-m3, voyage-3, multilingual-e5), on évalue la qualité du retrieval avec des métriques sérieuses (recall, MRR), pas avec un "ça a l'air de marcher".

  • Qdrant, pgvector, Weaviate
  • Embeddings multilingues SOTA
  • Reranking et hybrid search
  • Évaluation RAG (Ragas)
En savoir plus
04
< 2jpour brancher un LLM dans votre app

Intégration IA dans vos produits

Vous avez déjà une application qui tourne. On y ajoute une couche IA utile : génération de résumés, classification automatique, recherche sémantique, modération. On respecte votre stack, on ne casse rien, on instrumente avec des feature flags pour rollback en un clic si le modèle dérape. L'IA doit servir le produit, pas l'inverse.

  • Intégration React, Next.js, Laravel, PrestaShop
  • Feature flags et rollback
  • Streaming SSE / WebSocket
  • A/B testing modèle vs baseline
En savoir plus
// CHECKLIST

Notre standard
qualité IA.

Avant de mettre une IA en production, on coche cette liste. Sans ça, c'est juste une démo qui finira au placard.

Sécurité & Souveraineté

  • Modèles open weights tournés en local ou sur votre infra
  • Aucune donnée client envoyée vers une API tierce sans accord explicite
  • Prompts et logs chiffrés au repos (AES-256)
  • Audit RGPD du pipeline IA documenté
  • Filtrage des PII en entrée et sortie (Presidio)
  • Authentification API par clé tournante

Évaluation & Monitoring

  • Suite de tests d'évaluation avant chaque déploiement
  • Métriques RAG mesurées (faithfulness, context recall)
  • Logging des prompts et réponses pour traçabilité
  • Détection automatique de dérive de qualité
  • Comparaison continue modèle vs baseline humaine
  • Alertes Slack si latence ou taux d'hallucination dégradés

Fiabilité & Garde-fous

  • Validation Pydantic des sorties structurées
  • Retry exponentiel en cas d'échec d'inférence
  • Limites de tokens et de coût par requête
  • Human-in-the-loop pour les décisions critiques
  • Fallback sur modèle plus léger si charge excessive
  • Documentation des cas où l'IA refuse de répondre

Ils nous font confiance

// ALLIANCES STRATÉGIQUES

La meute.

+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Vue sur le Mont Coudon depuis nos bureaux à La Farlède, Toulon
// NOTRE CADRE DE TRAVAIL

Pas de métro,
dans le Var.

Nos bureaux sont installés à La Farlède, à 10 minutes de Toulon et de la mer. Un cadre de travail inspirant où l'on conçoit vos projets avec vue sur le Mont Coudon.

Découvrir nos locaux
300jours de soleil/an
10min de la plage
8ans d'expertise
100%équipe locale
// QUESTIONS FRÉQUENTES

Vos questions sur
l'IA en production.

Ça dépend de trois choses. Confidentialité de vos données : si vos prompts contiennent des infos sensibles (médical, juridique, R&D), modèle local obligatoire. Volume : à partir de quelques millions de tokens par mois, le coût d'un modèle en local devient inférieur à GPT-4. Qualité : pour 90% des cas d'usage métier, Mistral 120B ou DeepSeek-R1 atteignent la qualité de GPT-4. Pour 10% des cas (raisonnement très complexe, code multilingue rare), GPT-4 ou Claude Sonnet restent en tête. On vous aide à choisir en fonction du use case.

Un POC RAG simple sur vos PDF : 5 000 à 12 000€ (2 à 4 semaines). Un agent métier intégré à votre application existante : 15 000 à 35 000€ (4 à 8 semaines). Un système multi-agents en production avec monitoring complet : 35 000 à 80 000€ (8 à 16 semaines). Si vous voulez tout héberger en local sur votre propre matériel, comptez 8 000 à 30 000€ en plus pour le hardware et le setup. Devis détaillé après un atelier de cadrage de 2h, gratuit.

Nulle part par défaut. On déploie les modèles soit sur votre infra (cloud privé, on-premise), soit sur notre DGX Spark à La Farlède. Aucun appel sortant vers OpenAI, Anthropic ou Google sans votre accord explicite. Si vous demandez une intégration GPT-4 (par exemple pour un sous-agent qui n'a pas accès aux données sensibles), on isole le périmètre et on documente précisément ce qui sort. Pour le RGPD, on fournit la documentation technique du pipeline et la base de traitement.

Non, et toute agence qui vous dit le contraire vous ment. Un dev senior comprend votre business, anticipe les conséquences d'un changement, négocie le scope, refuse une mauvaise idée. L'IA fait disparaître 60 à 80% du travail répétitif (boilerplate, tests, refactoring mécanique, code review de routine), ce qui libère votre senior pour les décisions architecturales. On le voit chez nous : nos agents font des PR, nos devs les valident et tranchent les choix de design. Personne n'a été remplacé, tout le monde produit plus.

Pour un cas simple (RAG sur 100-500 documents avec interface web) : 2 à 3 semaines. Pour un agent métier qui appelle vos APIs et prend des décisions : 4 à 6 semaines. Pour un système multi-agents complet avec orchestration : 8 à 12 semaines. On démarre toujours par un atelier de cadrage qui définit le périmètre, les métriques de succès et les garde-fous. Un POC sans métrique mesurable, ce n'est pas un POC, c'est une démo qui meurt après la réunion de présentation.

Dans l'écrasante majorité des cas, fine-tuner un modèle de 120 milliards de paramètres pour un cas d'usage métier est une mauvaise idée : coût élevé, données d'entraînement difficiles à constituer, risque de catastrophic forgetting. Le bon réflexe en 2026 : prompt engineering soigné + RAG sur vos données + few-shot examples. On garde le fine-tuning pour les cas où c'est vraiment justifié (langage très spécialisé, besoin de latence ultra-faible). On préfère le LoRA / QLoRA au full fine-tuning quand c'est nécessaire.

Sur notre DGX Spark, Mistral 120B en quantification 4-bit délivre 30 à 60 tokens par seconde selon la longueur du contexte. Un modèle plus léger (Qwen 32B, Mistral Small) monte à 100 tokens par seconde. Pour une UX confortable en streaming, c'est largement suffisant : l'utilisateur voit la réponse arriver mot par mot. Pour des cas avec contraintes temps réel strictes (< 100ms), on bascule sur des modèles spécialisés ou on cache les réponses fréquentes.

Tarifs 30 à 40% inférieurs aux agences IA parisiennes, même expertise technique (modèles open weights, agents, RAG, fine-tuning), et matériel local que peu d'agences ont (notre DGX Spark coûte le prix d'une voiture, on a fait le pari). Proximité aussi : RDV en présentiel à La Farlède, réactivité. On travaille avec des clients à Marseille, Nice, Paris, mais pour les entreprises du Var, on est à 20 minutes maximum.

Vous avez d'autres questions ?

Contactez-nous

Un cas d'usage IA
à creuser ?

Atelier de cadrage de 2h offert : on regarde votre besoin, on évalue la faisabilité, on vous dit si l'IA est la bonne réponse (parfois non).