Mission Principale

Construire les pipelines de données (ELT/ETL) robustes alimentant les plateformes Analytics et IA.

Garant de la qualité, fraîcheur et gouvernance des données. Architecture Data Warehouse BigQuery et orchestration des flux de données.

Responsabilités Détaillées

A Construction Pipelines 50%

  • Développement pipelines : Batch/streaming (Dataflow, Airflow)
  • Ingestion multi-sources : APIs, bases de données, fichiers
  • Transformations complexes : Agrégations, jointures SQL avancées

B Architecture & Modélisation 30%

  • Design Data Warehouse BigQuery
  • Modélisation dimensionnelle : Étoile/flocon
  • Optimisation performance : Partitioning/Clustering

C Qualité & Gouvernance 10%

  • Data Quality : Tests dbt automatisés
  • Catalogage : Dataplex pour gouvernance
  • Lineage des données : Traçabilité complète

D Industrialisation 10%

  • CI/CD pour la Data : Pipelines automatisés
  • Infrastructure as Code : dbt, Terraform
  • Monitoring : Alerting sur pipelines

Questions d'Entretien Clés

1. BigQuery Architecture

"Expliquez pourquoi BigQuery est Columnar et comment optimiser une table de 10 Po."
Attendu : Stockage colonne = scan seulement colonnes nécessaires. Optimisation : Partitionnement (date), Clustering (clés fréquentes), Dénormalisation.

2. ETL vs ELT

"Quelle approche privilégiez-vous sur GCP et pourquoi ?"
Attendu : ELT car BigQuery peut transformer massivement (SQL). Load brut puis transform dans BigQuery. ETL seulement si transformations complexes impossibles en SQL.

3. Data Quality

"Dashboard montre un CA erroné. Votre démarche ?"
Attendu :
  1. Vérifier Lineage (quelle table source)
  2. Tests automatiques (dbt test)
  3. Logs pipeline
  4. Comparer source vs destination

Grille d'Évaluation

Notation : 1 à 5. Total /115, Seuil > 85

Critère Poids Note /5 Score
Maîtrise SQL Avancé x4 __ __/20
Expertise BigQuery x4 __ __/20
Python/Scripting x3 __ __/15
Vision Pipeline (Airflow/dbt) x3 __ __/15
Sens Qualité/QA x3 __ __/15
TOTAL __/115

🚩 Red Flag : "Big Data On-Premise"

Profil habitué à gérer serveurs Hadoop/Spark manuellement et réticent aux services serverless (BigQuery/Dataflow). Veut tout gérer avec du code custom au lieu d'utiliser les services managés GCP.