Mission

Construire les pipelines de données (ELT/ETL) robustes alimentant les plateformes Analytics et IA. Garant de la qualité, fraîcheur et gouvernance des données.

Responsabilités

50% A. Construction Pipelines

  • Développement pipelines batch/streaming (Dataflow, Airflow)
  • Ingestion multi-sources (APIs, bases, fichiers)
  • Transformations complexes (agrégations, jointures)

30% B. Architecture & Modélisation

  • Design Data Warehouse BigQuery
  • Modélisation dimensionnelle (étoile/flocon)
  • Partitioning/Clustering pour performance

10% C. Qualité & Gouvernance

  • Data Quality (tests dbt)
  • Catalogage (Dataplex)
  • Lineage des données

10% D. Industrialisation

  • CI/CD pour la Data
  • dbt, Terraform
  • Monitoring pipelines

Questions Clés

1. BigQuery Architecture

"Expliquez pourquoi BigQuery est Columnar et comment optimiser une table de 10 Po."

✅ Attendu : Stockage colonne = scan seulement colonnes nécessaires. Optimisation : Partitionnement (date), Clustering (clés fréquentes), Dénormalisation.

2. ETL vs ELT

"Quelle approche privilégiez-vous sur GCP et pourquoi ?"

✅ Attendu : ELT car BigQuery peut transformer massivement (SQL). Load brut puis transform dans BigQuery.

Compétences Techniques

SQL Avancé & BigQuery
Python & Scripting
Pipelines (Airflow/dbt)
ETL/ELT & Dataflow
Data Quality (dbt)
GCP Data Services

Profil Recherché

Formation

Bac+5 en Informatique, Data Science ou diplôme d'ingénieur

Expérience

2-4 ans en Data Engineering avec focus sur pipelines et BigQuery

Maîtrise SQL

Expert SQL avec requêtes complexes, optimisation, et modélisation

Python

Bonne maîtrise Python pour scripting, transformations et orchestration

GCP

Expérience BigQuery, Dataflow, Pub/Sub, Cloud Storage

Outils Data

Airflow, dbt, Terraform, CI/CD pour la Data

SCORECARD

Total /115, Seuil > 85

CritèrePoids
Maîtrise SQL Avancéx4
Expertise BigQueryx4
Python/Scriptingx3
Vision Pipeline (Airflow/dbt)x3
Sens Qualité/QAx3
TOTAL/ 115

Red Flag

🚩 Big Data On-Premise

Profil préférant code custom vs services managés GCP. Réticence envers serverless.