Mission
Construire les pipelines de données (ELT/ETL) robustes alimentant les plateformes Analytics et IA. Garant de la qualité, fraîcheur et gouvernance des données.
Responsabilités
50% A. Construction Pipelines
- Développement pipelines batch/streaming (Dataflow, Airflow)
- Ingestion multi-sources (APIs, bases, fichiers)
- Transformations complexes (agrégations, jointures)
30% B. Architecture & Modélisation
- Design Data Warehouse BigQuery
- Modélisation dimensionnelle (étoile/flocon)
- Partitioning/Clustering pour performance
10% C. Qualité & Gouvernance
- Data Quality (tests dbt)
- Catalogage (Dataplex)
- Lineage des données
10% D. Industrialisation
- CI/CD pour la Data
- dbt, Terraform
- Monitoring pipelines
Questions Clés
1. BigQuery Architecture
"Expliquez pourquoi BigQuery est Columnar et comment optimiser une table de 10 Po."
2. ETL vs ELT
"Quelle approche privilégiez-vous sur GCP et pourquoi ?"
Compétences Techniques
Profil Recherché
Formation
Bac+5 en Informatique, Data Science ou diplôme d'ingénieur
Expérience
2-4 ans en Data Engineering avec focus sur pipelines et BigQuery
Maîtrise SQL
Expert SQL avec requêtes complexes, optimisation, et modélisation
Python
Bonne maîtrise Python pour scripting, transformations et orchestration
GCP
Expérience BigQuery, Dataflow, Pub/Sub, Cloud Storage
Outils Data
Airflow, dbt, Terraform, CI/CD pour la Data
SCORECARD
Total /115, Seuil > 85
| Critère | Poids |
|---|---|
| Maîtrise SQL Avancé | x4 |
| Expertise BigQuery | x4 |
| Python/Scripting | x3 |
| Vision Pipeline (Airflow/dbt) | x3 |
| Sens Qualité/QA | x3 |
| TOTAL | / 115 |
Red Flag
🚩 Big Data On-Premise
Profil préférant code custom vs services managés GCP. Réticence envers serverless.