본문 바로가기
Data PipeLine/ETL

ETL은 이대로 괜찮을까?

by 연습장이 2023. 1. 8.
728x90
반응형

화제를 던진다기보다는 스스로에게 묻고 답을 구하고자 한다.

 

글을 쓰는 과정에서 답을 찾고자 한다.

 

ETL은 이대로 괜찮은걸까?

 

데이터 파이프라인 관련 책을 읽어보고 ETL 관련 툴을 조사하니 예전 기술스택과는 많이 다르다는 점을 느끼고 있다.

 

결론부터 말하자면 ETL은 새로운 전환점을 맞이하고 있다고 표현하고 싶다.

 

가장 큰 두 가지 이유는 

 

첫째로 OLAP DBMS의 지속적인 성장이다. PostgreSQL 10 버전에서 1000만 건을 아래 SQL로 조회해보았다.

 

select i

from generate_series(1,10000000) as i(i)

;

 

응답 시간은 평균 20분이었다.

 

Clickhouse 22.6 버전에서 마찬가지로 천만 건의 데이터를 테이블에 생성하여 조회해보았다.

 

select a

from dummy_table # 엔진은 MergeTree이며 정렬키는 단일 속성이다.

;

 

응답 시간은 0.1초였다.

 

내부적인 아키텍처는 솔직히 정확하게 알지 못한다. 중요한 건 단순 조회가 아니라 집계함수, group by까지 사용한다면 더더욱 차이는 분명해질 것이라는 점이다. 왜냐하면 clickhouse는 OLAP이고 실제 데이터 분석은 펙트성 데이터를 차원 단위(속성)로 이루어지기 때문이다. 파싱할 때부터 이미 다르다.

 

두번 째는 클라우드의 지속적인 성장이다. load 단계의 파일 시스템에 저장하는 부분이 굉장히 좋아졌다. AWS의 s3나 Google Cloud Storage 등 내구성도, 소프트웨어 연계성(의존성)도, 자체 확장성(스케일업 등)도 우수하다. 

 

이전에는 (1) 데이터를 추출하여 (2) 데이터를 변환하고 (3) 데이터를 적재하였지만

 

이제는 적재의 부담이 많이 줄어들었고 이에 따라 더 무궁무진한 분석이 가능하게 되었다. 또한 데이터엔지니어 - 데이터분석가 사이의 R&R도 명확하게 그을 수 있게 되었다.

 

물론 ETL도 장점이 충분히 있다. 수십년 간의 레퍼런스와 기술력, 안정성 등이다. 하지만 기술은 계속해서 변하고 있다.

 

ETL의 다음역은 어디가 될까?

 

728x90
반응형