본문 바로가기
728x90
반응형

elt10

[후기] Apache Airflow 기반의 데이터 파이프라인 데이터 엔지니어링이 되고자 바스 하렌슬락 외 1명이 지은 아래 책을 읽어보았다. 독서 기간은 아래와 같다. 1회 차 : 2022-12-27 ~ 2023-01-13 2회 차 : 2023-01-13 ~ 2023-01-22 3회 차 : 2203-01-23 ~ 2023-01-31 2월이 오기 전에 3회 정독을 끝내어 기쁘다. 이 책은 순수하게 모든 내용이 Airflow가 중심이다. Airflow를 통한 테스트, Airflow와 요즘 핫한 클라우드 서비스(AWS, Azure, GCS 등)의 콜라보 등을 소개해주는데 개인적으로 알차다고 생각한다. 특히 인상적이었던 부분은 클라우드 서비스에서 Airflow의 로직을 구현(클라우드 내 관리형 서비스를 통해)하는 부분이었는데, 마지막에 테스트에 사용된 데이터를 지우는 내.. 2023. 1. 31.
ETL은 이대로 괜찮을까? 화제를 던진다기보다는 스스로에게 묻고 답을 구하고자 한다. 글을 쓰는 과정에서 답을 찾고자 한다. ETL은 이대로 괜찮은걸까? 데이터 파이프라인 관련 책을 읽어보고 ETL 관련 툴을 조사하니 예전 기술스택과는 많이 다르다는 점을 느끼고 있다. 결론부터 말하자면 ETL은 새로운 전환점을 맞이하고 있다고 표현하고 싶다. 가장 큰 두 가지 이유는 첫째로 OLAP DBMS의 지속적인 성장이다. PostgreSQL 10 버전에서 1000만 건을 아래 SQL로 조회해보았다. select i from generate_series(1,10000000) as i(i) ; 응답 시간은 평균 20분이었다. Clickhouse 22.6 버전에서 마찬가지로 천만 건의 데이터를 테이블에 생성하여 조회해보았다. select a f.. 2023. 1. 8.
728x90
반응형