[후기] Apache Airflow 기반의 데이터 파이프라인
데이터 엔지니어링이 되고자 바스 하렌슬락 외 1명이 지은 아래 책을 읽어보았다.
독서 기간은 아래와 같다.
- 1회 차 : 2022-12-27 ~ 2023-01-13
- 2회 차 : 2023-01-13 ~ 2023-01-22
- 3회 차 : 2203-01-23 ~ 2023-01-31
2월이 오기 전에 3회 정독을 끝내어 기쁘다.
이 책은 순수하게 모든 내용이 Airflow가 중심이다. Airflow를 통한 테스트, Airflow와 요즘 핫한 클라우드 서비스(AWS, Azure, GCS 등)의 콜라보 등을 소개해주는데 개인적으로 알차다고 생각한다.
특히 인상적이었던 부분은 클라우드 서비스에서 Airflow의 로직을 구현(클라우드 내 관리형 서비스를 통해)하는 부분이었는데, 마지막에 테스트에 사용된 데이터를 지우는 내용이 이 책은 "진짜"다 라는 기분이 들었다. 이게 왜 중요하냐? 클라우드 서비스는 대체로 네트워크 트래픽 단위 혹은 저장 중인 데이터량 단위로 비용이 책정된다. 아무 생각 없이 테스트하고 나서 한달이 지난다면? 요금 폭탄을 맞는 것이다. Airflow 특성 상 1회성이 아닌 일배치로 돈다면 생각보다 더 큰 용돈의 부재를 느끼게 될 것이다.
그 외 보안적인 부분, 모니터링, 언제 Airflow를 사용해야 하는지 등 Airflow의 A-Z를 전부 알 수 있어 그야말로 바이블이 아닐까 생각이 들었다.
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
SQLD, ADSP, DASP, 빅분기 등 정보 공유 및 소통 오픈 단톡방 운영중!
자격증도 따고 현업 소식도 함께 해요ㅎ
https://open.kakao.com/o/gjqyRcYg
SQLD 빅분기 dasp adsp 스터디방
#sqld #빅분기 #빅데이터분석기사 #빅분기 #IT자격증 #쿼리 #dasp #adsp #리눅스마스터 #리마 #스터디 #개발자 #dba #데엔
open.kakao.com
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★