Mission Principale

Construire et industrialiser des solutions d'IA Générative (RAG, Agents conversationnels) sur Vertex AI pour transformer les processus métiers des clients. Garant de la qualité technique des solutions IA en production : performance, coûts, et fiabilité.

Responsabilités

50% A. Développement & Architecture RAG

  • Développement Python : Concevoir pipelines (chunking, embeddings, indexation)
  • Orchestration : LangChain/LlamaIndex pour chaînes RAG complexes
  • Vector Databases : Vertex AI Vector Search, Pinecone, Weaviate
  • Prompt Engineering : Designer prompts optimisés, minimiser hallucinations

30% B. Cloud Engineering & Déploiement

  • Déploiement Cloud Run : Containeriser applications IA scalables
  • Gestion API : APIs REST sécurisées avec IAM
  • Sécurité Vertex AI : Accès, encryption, logging
  • Infrastructure : Terraform pour provisionner ressources GCP

10% C. LLMOps & Qualité

  • Monitoring : Mesurer Grounding, Latence, Coûts tokens
  • Évaluation : A/B testing modèles (Gemini Pro vs Flash)
  • Optimisation : Réduire latence et coûts (caching, batch)

10% D. R&D & Veille

  • Tester nouveaux modèles Vertex AI dès leur release
  • Prototyper cas d'usage innovants (Agents multi-modaux)
  • Documenter et partager découvertes

Questions d'Entretien

1. Architecture RAG (20 min) - QUESTION CENTRALE

Test Architecture Complète : "Décrivez l'architecture technique de A à Z sur Google Cloud pour créer un chatbot RH capable de répondre à partir de 500 PDFs de documentation interne."

✅ Attendu :
  1. Ingestion : Cloud Storage + Document AI (OCR)
  2. Chunking : Découpage documents (512 tokens)
  3. Embedding : Vertex AI Text Embeddings API
  4. Indexation : Vertex AI Vector Search
  5. Retrieval : Recherche similarité top-k
  6. Prompt Augmentation : Contexte injecté
  7. LLM : Gemini Pro API
  8. Interface : Cloud Run pour API REST

2. Production & Performance (15 min)

Réduction Latence : "Votre API RAG met 8 secondes à répondre. Quelles sont vos 3 pistes d'optimisation prioritaires ?"

✅ Attendu :
  1. Caching des embeddings et résultats fréquents
  2. Réduire top-k (3 au lieu de 10)
  3. Utiliser Gemini Flash vs Pro
  4. Paralléliser Embedding + Retrieval

Compétences Techniques

RAG & Embeddings
Python & LangChain
Vertex AI & Gemini
Prompt Engineering
Déploiement Production
Optimisation Coûts/Latence

Profil Recherché

Formation

Bac+5 en Informatique, Data Science, IA/ML ou diplôme d'ingénieur

Expérience

2-3 ans en développement IA/ML, idéalement avec des projets GenAI ou NLP

Maîtrise Python

Expert Python avec frameworks IA (LangChain, LlamaIndex) et Vertex AI

Expertise GenAI

Connaissance approfondie RAG, embeddings, vector databases et LLMs

GCP & Vertex AI

Expérience avérée avec Vertex AI, Gemini API et services Google Cloud

Pragmatisme

Capable de passer rapidement du POC à la production avec focus valeur métier

SCORECARD

Notation 1-5. Seuil : > 70/100

CompétencesPoidsObservations
A. EXPERTISE TECHNIQUE IA
Maîtrise du RAGx4A décrit toute la chaîne ? Connaît les pièges ?
Frameworks (LangChain/Python)x3Code Python propre et structuré ?
Vertex AI Ecosystemx3Connaît Gemini API, Vector Search ?
Prompt Engineeringx2Techniques avancées ? Réduit hallucinations ?
B. DÉPLOIEMENT & OPS
Déploiement Productionx2A déjà mis modèle en prod ? Docker/K8s ?
Optimisation (Latence/Coûts)x2Solutions concrètes (caching, Flash) ?
C. SOFT SKILLS
Pragmatisme (POC → Prod)x3Focus valeur métier ?
Pédagogiex1Explique concepts IA clairement ?
TOTAL/ 100

Red Flag

🚩 Le "Notebook Artist"

Symptôme : Expert des POCs dans Jupyter Notebook, mais incapable de déployer en production.

  • ❌ Pas de Docker/Cloud Run
  • ❌ Pas d'auth IAM
  • ❌ Pas de monitoring/logging
  • ❌ Coûts tokens non gérés