Data Engineer - Pyl.Tech

Mission

Construire les pipelines de données (ELT/ETL) robustes alimentant les plateformes Analytics et IA. Garant de la qualité, fraîcheur et gouvernance des données.

Responsabilités

50% A. Construction Pipelines

Développement pipelines batch/streaming (Dataflow, Airflow)
Ingestion multi-sources (APIs, bases, fichiers)
Transformations complexes (agrégations, jointures)

30% B. Architecture & Modélisation

Design Data Warehouse BigQuery
Modélisation dimensionnelle (étoile/flocon)
Partitioning/Clustering pour performance

10% C. Qualité & Gouvernance

Data Quality (tests dbt)
Catalogage (Dataplex)
Lineage des données

10% D. Industrialisation

CI/CD pour la Data
dbt, Terraform
Monitoring pipelines

Questions Clés

1. BigQuery Architecture

"Expliquez pourquoi BigQuery est Columnar et comment optimiser une table de 10 Po."

✅ Attendu : Stockage colonne = scan seulement colonnes nécessaires. Optimisation : Partitionnement (date), Clustering (clés fréquentes), Dénormalisation.

2. ETL vs ELT

"Quelle approche privilégiez-vous sur GCP et pourquoi ?"

✅ Attendu : ELT car BigQuery peut transformer massivement (SQL). Load brut puis transform dans BigQuery.

Compétences Techniques

SQL Avancé & BigQuery

Python & Scripting

Pipelines (Airflow/dbt)

ETL/ELT & Dataflow

Data Quality (dbt)

GCP Data Services

Profil Recherché

Formation

Bac+5 en Informatique, Data Science ou diplôme d'ingénieur

Expérience

2-4 ans en Data Engineering avec focus sur pipelines et BigQuery

Maîtrise SQL

Expert SQL avec requêtes complexes, optimisation, et modélisation

Python

Bonne maîtrise Python pour scripting, transformations et orchestration

GCP

Expérience BigQuery, Dataflow, Pub/Sub, Cloud Storage

Outils Data

Airflow, dbt, Terraform, CI/CD pour la Data

SCORECARD

Total /115, Seuil > 85

Critère	Poids
Maîtrise SQL Avancé	x4
Expertise BigQuery	x4
Python/Scripting	x3
Vision Pipeline (Airflow/dbt)	x3
Sens Qualité/QA	x3
TOTAL	/ 115

Red Flag

🚩 Big Data On-Premise

Profil préférant code custom vs services managés GCP. Réticence envers serverless.

Data Engineer (GCP & Big Data)