Mission Principale
Construire et industrialiser des solutions d'IA Générative (RAG, Agents conversationnels) sur Vertex AI pour transformer les processus métiers des clients. Garant de la qualité technique des solutions IA en production : performance, coûts, et fiabilité.
Responsabilités
50% A. Développement & Architecture RAG
- Développement Python : Concevoir pipelines (chunking, embeddings, indexation)
- Orchestration : LangChain/LlamaIndex pour chaînes RAG complexes
- Vector Databases : Vertex AI Vector Search, Pinecone, Weaviate
- Prompt Engineering : Designer prompts optimisés, minimiser hallucinations
30% B. Cloud Engineering & Déploiement
- Déploiement Cloud Run : Containeriser applications IA scalables
- Gestion API : APIs REST sécurisées avec IAM
- Sécurité Vertex AI : Accès, encryption, logging
- Infrastructure : Terraform pour provisionner ressources GCP
10% C. LLMOps & Qualité
- Monitoring : Mesurer Grounding, Latence, Coûts tokens
- Évaluation : A/B testing modèles (Gemini Pro vs Flash)
- Optimisation : Réduire latence et coûts (caching, batch)
10% D. R&D & Veille
- Tester nouveaux modèles Vertex AI dès leur release
- Prototyper cas d'usage innovants (Agents multi-modaux)
- Documenter et partager découvertes
Questions d'Entretien
1. Architecture RAG (20 min) - QUESTION CENTRALE
Test Architecture Complète : "Décrivez l'architecture technique de A à Z sur Google Cloud pour créer un chatbot RH capable de répondre à partir de 500 PDFs de documentation interne."
- Ingestion : Cloud Storage + Document AI (OCR)
- Chunking : Découpage documents (512 tokens)
- Embedding : Vertex AI Text Embeddings API
- Indexation : Vertex AI Vector Search
- Retrieval : Recherche similarité top-k
- Prompt Augmentation : Contexte injecté
- LLM : Gemini Pro API
- Interface : Cloud Run pour API REST
2. Production & Performance (15 min)
Réduction Latence : "Votre API RAG met 8 secondes à répondre. Quelles sont vos 3 pistes d'optimisation prioritaires ?"
- Caching des embeddings et résultats fréquents
- Réduire top-k (3 au lieu de 10)
- Utiliser Gemini Flash vs Pro
- Paralléliser Embedding + Retrieval
Compétences Techniques
Profil Recherché
Formation
Bac+5 en Informatique, Data Science, IA/ML ou diplôme d'ingénieur
Expérience
2-3 ans en développement IA/ML, idéalement avec des projets GenAI ou NLP
Maîtrise Python
Expert Python avec frameworks IA (LangChain, LlamaIndex) et Vertex AI
Expertise GenAI
Connaissance approfondie RAG, embeddings, vector databases et LLMs
GCP & Vertex AI
Expérience avérée avec Vertex AI, Gemini API et services Google Cloud
Pragmatisme
Capable de passer rapidement du POC à la production avec focus valeur métier
SCORECARD
Notation 1-5. Seuil : > 70/100
| Compétences | Poids | Observations |
|---|---|---|
| A. EXPERTISE TECHNIQUE IA | ||
| Maîtrise du RAG | x4 | A décrit toute la chaîne ? Connaît les pièges ? |
| Frameworks (LangChain/Python) | x3 | Code Python propre et structuré ? |
| Vertex AI Ecosystem | x3 | Connaît Gemini API, Vector Search ? |
| Prompt Engineering | x2 | Techniques avancées ? Réduit hallucinations ? |
| B. DÉPLOIEMENT & OPS | ||
| Déploiement Production | x2 | A déjà mis modèle en prod ? Docker/K8s ? |
| Optimisation (Latence/Coûts) | x2 | Solutions concrètes (caching, Flash) ? |
| C. SOFT SKILLS | ||
| Pragmatisme (POC → Prod) | x3 | Focus valeur métier ? |
| Pédagogie | x1 | Explique concepts IA clairement ? |
| TOTAL | / 100 | |
Red Flag
🚩 Le "Notebook Artist"
Symptôme : Expert des POCs dans Jupyter Notebook, mais incapable de déployer en production.
- ❌ Pas de Docker/Cloud Run
- ❌ Pas d'auth IAM
- ❌ Pas de monitoring/logging
- ❌ Coûts tokens non gérés