Mission Principale
Construire et industrialiser des solutions d'IA Générative (RAG, Agents conversationnels) sur Vertex AI pour transformer les processus métiers des clients.
Garant de la qualité technique des solutions IA en production : performance, coûts, et fiabilité. Vous concevez des architectures RAG complètes, optimisez les prompts et déployez des applications IA scalables sur Google Cloud Platform.
Responsabilités Détaillées
A Développement & Architecture RAG 50%
- Développement Python : Concevoir pipelines de traitement de données (chunking, embeddings, indexation)
- Orchestration : Utiliser LangChain/LlamaIndex pour créer chaînes RAG complexes
- Vector Databases : Configurer et optimiser bases vectorielles (Vertex AI Vector Search, Pinecone, Weaviate)
- Prompt Engineering : Designer prompts optimisés pour maximiser qualité et minimiser hallucinations
B Cloud Engineering & Déploiement 30%
- Déploiement Cloud Run : Containeriser et déployer applications IA scalables
- Gestion API : Exposer modèles via APIs REST sécurisées avec authentification IAM
- Sécurité Vertex AI : Configurer accès, encryption, logging pour conformité
- Infrastructure : Terraform pour provisionner ressources GCP
C LLMOps & Qualité 10%
- Monitoring Qualité : Mesurer Grounding (fidélité aux sources), Latence, Coûts tokens
- Évaluation Modèles : A/B testing entre différents modèles (Gemini Pro vs Flash)
- Optimisation : Réduire latence et coûts (caching, batch processing)
D R&D & Veille 10%
- Veille active : Tester nouveaux modèles Vertex AI dès leur release (Gemini Ultra, Imagen)
- Innovation : Prototyper cas d'usage innovants (Agents multi-modaux, Fine-tuning)
- Partage : Documenter et partager découvertes avec l'équipe
Compétences Requises
Savoirs Techniques
FastAPI, Async, structuration code production
Orchestration LLM, chaînes RAG complexes
Gemini API, PaLM, Vector Search
Embeddings, Similarity Search, optimisation
Chain-of-Thought, Few-Shot, anti-hallucination
Déploiement production, scaling, monitoring
Savoir-faire
- Architecture RAG end-to-end : Maîtrise complète du pipeline d'ingestion à la génération
- Déploiement production : Cloud Run/GKE avec CI/CD, tests automatisés
- Debugging performance : Analyse latence, optimisation tokens, monitoring
- Optimisation coûts IA : Caching intelligent, batch processing, choix de modèles
Savoir-être
- Rigueur scientifique : Méthodologie expérimentation, mesures objectives
- Pragmatisme : Focus POC → Production rapidement avec valeur métier
- Curiosité débordante : Veille active sur nouveaux modèles et techniques
- Pédagogie : Capacité à expliquer l'IA simplement aux non-techniques
Banque de Questions d'Entretien
1. Architecture RAG (20 min) - QUESTION CENTRALE
- Ingestion : Cloud Storage + Document AI (OCR si scanné)
- Chunking : Découpage documents en passages (512 tokens)
- Embedding : Vertex AI Text Embeddings API
- Indexation : Vertex AI Vector Search
- Retrieval : Recherche similarité top-k documents
- Prompt Augmentation : Contexte injecté dans prompt
- LLM : Gemini Pro API pour génération réponse
- Interface : Cloud Run pour API REST
2. Concepts Avancés IA (15 min)
3. Production & Performance (15 min)
- Caching des embeddings et résultats fréquents
- Réduire nombre de chunks récupérés (top-k = 3 au lieu de 10)
- Utiliser Gemini Flash au lieu de Pro si qualité acceptable
- Paralléliser Embedding + Retrieval
- Température à 0 ou très basse
- Prompt explicite "Réponds UNIQUEMENT basé sur le contexte fourni"
- Citations obligatoires avec numéro de document source
- Vertex AI Grounding service pour validation automatique
4. Optimisation Coûts (10 min)
- Gemini Flash (8x moins cher)
- Caching des réponses fréquentes (Redis)
- Résumé des chunks avant envoi au LLM
- Modèle open-source hébergé (Llama via GKE) pour use cases simples
5. Cas Pratique Debugging (10 min)
- Vérifier logs : quels documents ont été retrievés ?
- Vérifier embedding : le bon document était-il dans la base ?
- Vérifier prompt : contexte correctement injecté ?
- Vérifier température/paramètres modèle
- Ajouter citation source obligatoire pour traçabilité
Grille d'Évaluation (Scorecard)
Notation : 1 (Faible) à 5 (Excellent). Seuil d'embauche : > 70/100
| Compétences / Critères | Poids | Note /5 | Score |
|---|---|---|---|
| A. EXPERTISE TECHNIQUE IA | |||
| Maîtrise du RAG (Architecture complète) | x4 | __ | __/20 |
| Frameworks (LangChain/Python) | x3 | __ | __/15 |
| Vertex AI Ecosystem | x3 | __ | __/15 |
| Prompt Engineering avancé | x2 | __ | __/10 |
| B. DÉPLOIEMENT & OPS | |||
| Déploiement Production (Cloud Run/GKE) | x2 | __ | __/10 |
| Optimisation (Latence/Coûts) | x2 | __ | __/10 |
| C. SOFT SKILLS & MINDSET | |||
| Pragmatisme (POC → Prod) | x3 | __ | __/15 |
| Pédagogie / Vulgarisation | x1 | __ | __/5 |
| TOTAL | __/100 | ||
🚩 Red Flag : Le "Notebook Artist"
Symptôme : Le candidat est un expert des POCs dans Jupyter Notebook, fait des démos impressionnantes, mais est incapable de déployer une application stable et sécurisée en production.
Questions révélatrices :
- ❌ Ne sait pas ce qu'est Docker ou Cloud Run
- ❌ N'a jamais géré d'authentification IAM ou d'API REST
- ❌ Aucune notion de monitoring, logging ou alerting
- ❌ Ne se préoccupe pas des coûts tokens ou de la latence
- ❌ Code non structuré (tout dans un seul fichier .ipynb)
Le bon candidat : Celui qui dit "Mon POC en notebook a pris 2h, mais l'industrialisation en production m'a pris 3 jours : API REST, tests automatisés, monitoring, gestion d'erreurs, optimisation latence."
Intéressé par ce poste ?
Rejoignez l'aventure Pyl.Tech et construisez les solutions IA de demain.