Data Engineer (GCP & Big Data)

Mission Principale

Construire les pipelines de données (ELT/ETL) robustes alimentant les plateformes Analytics et IA.

Garant de la qualité, fraîcheur et gouvernance des données. Architecture Data Warehouse BigQuery et orchestration des flux de données.

Responsabilités Détaillées

A Construction Pipelines 50%

Développement pipelines : Batch/streaming (Dataflow, Airflow)
Ingestion multi-sources : APIs, bases de données, fichiers
Transformations complexes : Agrégations, jointures SQL avancées

B Architecture & Modélisation 30%

Design Data Warehouse BigQuery
Modélisation dimensionnelle : Étoile/flocon
Optimisation performance : Partitioning/Clustering

C Qualité & Gouvernance 10%

Data Quality : Tests dbt automatisés
Catalogage : Dataplex pour gouvernance
Lineage des données : Traçabilité complète

D Industrialisation 10%

CI/CD pour la Data : Pipelines automatisés
Infrastructure as Code : dbt, Terraform
Monitoring : Alerting sur pipelines

Questions d'Entretien Clés

1. BigQuery Architecture

"Expliquez pourquoi BigQuery est Columnar et comment optimiser une table de 10 Po."

Attendu : Stockage colonne = scan seulement colonnes nécessaires. Optimisation : Partitionnement (date), Clustering (clés fréquentes), Dénormalisation.

2. ETL vs ELT

"Quelle approche privilégiez-vous sur GCP et pourquoi ?"

Attendu : ELT car BigQuery peut transformer massivement (SQL). Load brut puis transform dans BigQuery. ETL seulement si transformations complexes impossibles en SQL.

3. Data Quality

"Dashboard montre un CA erroné. Votre démarche ?"

Attendu :

Vérifier Lineage (quelle table source)
Tests automatiques (dbt test)
Logs pipeline
Comparer source vs destination

Grille d'Évaluation

Notation : 1 à 5. Total /115, Seuil > 85

Critère	Poids	Note /5	Score
Maîtrise SQL Avancé	x4	__	__/20
Expertise BigQuery	x4	__	__/20
Python/Scripting	x3	__	__/15
Vision Pipeline (Airflow/dbt)	x3	__	__/15
Sens Qualité/QA	x3	__	__/15
TOTAL			__/115

🚩 Red Flag : "Big Data On-Premise"

Profil habitué à gérer serveurs Hadoop/Spark manuellement et réticent aux services serverless (BigQuery/Dataflow). Veut tout gérer avec du code custom au lieu d'utiliser les services managés GCP.