Ingénieur IA Générative

Mission Principale

Construire et industrialiser des solutions d'IA Générative (RAG, Agents conversationnels) sur Vertex AI pour transformer les processus métiers des clients. Garant de la qualité technique des solutions IA en production : performance, coûts, et fiabilité.

Responsabilités

50% A. Développement & Architecture RAG

Développement Python : Concevoir pipelines (chunking, embeddings, indexation)
Orchestration : LangChain/LlamaIndex pour chaînes RAG complexes
Vector Databases : Vertex AI Vector Search, Pinecone, Weaviate
Prompt Engineering : Designer prompts optimisés, minimiser hallucinations

30% B. Cloud Engineering & Déploiement

Déploiement Cloud Run : Containeriser applications IA scalables
Gestion API : APIs REST sécurisées avec IAM
Sécurité Vertex AI : Accès, encryption, logging
Infrastructure : Terraform pour provisionner ressources GCP

10% C. LLMOps & Qualité

Monitoring : Mesurer Grounding, Latence, Coûts tokens
Évaluation : A/B testing modèles (Gemini Pro vs Flash)
Optimisation : Réduire latence et coûts (caching, batch)

10% D. R&D & Veille

Tester nouveaux modèles Vertex AI dès leur release
Prototyper cas d'usage innovants (Agents multi-modaux)
Documenter et partager découvertes

Questions d'Entretien

1. Architecture RAG (20 min) - QUESTION CENTRALE

Test Architecture Complète : "Décrivez l'architecture technique de A à Z sur Google Cloud pour créer un chatbot RH capable de répondre à partir de 500 PDFs de documentation interne."

✅ Attendu :

Ingestion : Cloud Storage + Document AI (OCR)
Chunking : Découpage documents (512 tokens)
Embedding : Vertex AI Text Embeddings API
Indexation : Vertex AI Vector Search
Retrieval : Recherche similarité top-k
Prompt Augmentation : Contexte injecté
LLM : Gemini Pro API
Interface : Cloud Run pour API REST

2. Production & Performance (15 min)

Réduction Latence : "Votre API RAG met 8 secondes à répondre. Quelles sont vos 3 pistes d'optimisation prioritaires ?"

✅ Attendu :

Caching des embeddings et résultats fréquents
Réduire top-k (3 au lieu de 10)
Utiliser Gemini Flash vs Pro
Paralléliser Embedding + Retrieval

Compétences Techniques

RAG & Embeddings

Python & LangChain

Vertex AI & Gemini

Prompt Engineering

Déploiement Production

Optimisation Coûts/Latence

Profil Recherché

Formation

Bac+5 en Informatique, Data Science, IA/ML ou diplôme d'ingénieur

Expérience

2-3 ans en développement IA/ML, idéalement avec des projets GenAI ou NLP

Maîtrise Python

Expert Python avec frameworks IA (LangChain, LlamaIndex) et Vertex AI

Expertise GenAI

Connaissance approfondie RAG, embeddings, vector databases et LLMs

GCP & Vertex AI

Expérience avérée avec Vertex AI, Gemini API et services Google Cloud

Pragmatisme

Capable de passer rapidement du POC à la production avec focus valeur métier

SCORECARD

Notation 1-5. Seuil : > 70/100

Compétences	Poids	Observations
A. EXPERTISE TECHNIQUE IA
Maîtrise du RAG	x4	A décrit toute la chaîne ? Connaît les pièges ?
Frameworks (LangChain/Python)	x3	Code Python propre et structuré ?
Vertex AI Ecosystem	x3	Connaît Gemini API, Vector Search ?
Prompt Engineering	x2	Techniques avancées ? Réduit hallucinations ?
B. DÉPLOIEMENT & OPS
Déploiement Production	x2	A déjà mis modèle en prod ? Docker/K8s ?
Optimisation (Latence/Coûts)	x2	Solutions concrètes (caching, Flash) ?
C. SOFT SKILLS
Pragmatisme (POC → Prod)	x3	Focus valeur métier ?
Pédagogie	x1	Explique concepts IA clairement ?
TOTAL		/ 100

Red Flag

🚩 Le "Notebook Artist"

Symptôme : Expert des POCs dans Jupyter Notebook, mais incapable de déployer en production.

❌ Pas de Docker/Cloud Run
❌ Pas d'auth IAM
❌ Pas de monitoring/logging
❌ Coûts tokens non gérés

Ingénieur IA Générative / GenAI Engineer