BEGINNER • SQL Fundamentals

Sprint: improve lineage tracking #22

This lesson focuses on improve lineage tracking for a inventory management environment. You will use: python -m venv venv | python etl_script.py | CREATE TABLE events (id SERIAL PRIMARY KEY). The content is designed for practical data engineering execution.

Code Example

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("inventory management").getOrCreate()
df = spark.read.parquet("s3://bucket/raw/")
df.filter("event_type = 'purchase'").write.mode("overwrite").parquet("s3://bucket/processed/")

# Objective: improve lineage tracking

Commands & References

python -m venv venv
python etl_script.py
CREATE TABLE events (id SERIAL PRIMARY KEY)

Lab Steps

Prepare environment with: python -m venv venv
Design or modify the data pipeline for the scenario.
Validate data quality and document lineage.
Propose one optimization for production.

Exercises

Add one data quality check.
Implement one incremental loading pattern.
Write a rollback procedure for this pipeline.

Previous Lesson Next Lesson