본문 바로가기
독서/IT 관련

[후기] Apache Airflow 기반의 데이터 파이프라인

by 연습장이 2023. 1. 31.
728x90
반응형

데이터 엔지니어링이 되고자 바스 하렌슬락 외 1명이 지은 아래 책을 읽어보았다. 

독서 기간은 아래와 같다.

  • 1회 차 : 2022-12-27 ~ 2023-01-13
  • 2회 차 : 2023-01-13 ~ 2023-01-22
  • 3회 차 : 2203-01-23 ~ 2023-01-31

2월이 오기 전에 3회 정독을 끝내어 기쁘다.

 

이 책은 순수하게 모든 내용이 Airflow가 중심이다. Airflow를 통한 테스트, Airflow와 요즘 핫한 클라우드 서비스(AWS, Azure, GCS 등)의 콜라보 등을 소개해주는데 개인적으로 알차다고 생각한다.

 

특히 인상적이었던 부분은 클라우드 서비스에서 Airflow의 로직을 구현(클라우드 내 관리형 서비스를 통해)하는 부분이었는데, 마지막에 테스트에 사용된 데이터를 지우는 내용이 이 책은 "진짜"다 라는 기분이 들었다. 이게 왜 중요하냐? 클라우드 서비스는 대체로 네트워크 트래픽 단위 혹은 저장 중인 데이터량 단위로 비용이 책정된다. 아무 생각 없이 테스트하고 나서 한달이 지난다면? 요금 폭탄을 맞는 것이다. Airflow 특성 상 1회성이 아닌 일배치로 돈다면 생각보다 더 큰 용돈의 부재를 느끼게 될 것이다.

 

그 외 보안적인 부분, 모니터링, 언제 Airflow를 사용해야 하는지 등 Airflow의 A-Z를 전부 알 수 있어 그야말로 바이블이 아닐까 생각이 들었다.

728x90
반응형