본문 바로가기
마린일병의 사람사는 이야기/주제 넘은 서평

[서평][데이터공학] 실무 예제로 배우는 데이터 공학 / 제이펍

by 마린일병 2021. 8. 17.
반응형

꼭 IT분야에 국한된 것만은 아니긴 하지만 어찌됐던 최근 최소 5~6년의 시간의 흐름에 있어 가장 핫한 키워드는 빅데이터나 머신러닝/딥러닝으로 대표되는 인공지능이 아닐까 싶다. 이와 관련해서 데이터 분석, 시각화 분석, 데이터 공학, 데이터 과학 등등이 부수적으로 따라붙는 키워드들일 것이다. 뭐 인공지능쪽도 강화학습이니 등등 여러갈래의 세분화 되어 전계되지만...

 

여하튼 이것들의 공통점 또는 베이스가 되는 것은 데이터가 아닐까 싶다, 대규모의 데이터를 동반하는 무언가...

예를들면 데이터 자체를 수집, 추출, 변환 등을 처리하는 공학적인 측면의 접근과 이렇게 이렇게 모여진 데이터를 기반으로 데이터의 특성과 분석과 이를 활용하는데 집중하는 과학적 접근...

 

생각해보면 데이터를 통계적인 분석 모델과 기법이나 머신러닝과 딥러닝으로 대표되는 학습에 기반한 모델이나 방법에 대해 접근해볼 수 있는 책이나 자료는 굉장히 많이 있다. 하지만 의외로 데이터 공학적 측면에서의 내용을 체계적으로 다루는 책은 그리 많지 않은것 같다.

 

데이터 공학은 아주 쉽게 생각해보면 전통적인 IT분야에서 응용프로그램이나 시스템간 데이터를 인터페이스 하는 기술들에 뿌리하고 있다고 하면 쉽지 않을까 싶다. 결국 데이터 공학이라는 것이 데이터를 수집, 추출, 변환, 적재 하는 데이터 파이프라인 구축에 관한 부분이 가장 핵심이고 이는 전통적인 ETL이나 ELT(요즘 추세)나 EAI와 같은 것과 기술적인 부분에서 맞닿아 있다 볼 수 있기 때문이다. 바꿔말하면 인프라적 성격이 강한 업무영역이라 할 수 있다.

 

전통적인 접근을 잘 소개해 놓은 책도 별도 없지만 최신 흐름이 반영된 데이터 파이프라인 구축에 대한 체계적인 접근을 하는 책도 거의 본적이 없는 것 같다.

 

이번에 제이펍에서 출간된 '실무 예제로 배우는 데이터 공학'이란 책은 바로 이 부분에 특화되어 있는 최신 기술 흐름을 기반으로 기술되어 있다.

 

데이터 파이프라인 예전에는 직접 구현하거나 ETL이나 EAI 솔루션을 이용하여 구축을 주로 했는데 요즘은 데이터도 정형 데이터 뿐만 아니라 비정형 데이터까지 분석에 활용하다보니 단일 솔루션이나 기술로 통합하지 않고 다양한 기법과 다양한 솔루션 특히나 오픈소스를 활용하는 추세이다.

 

이 책은 이러한 시대적 흐름에 꼭 필요한 도구를 소개하고 실제 프로젝트 처럼 데이터를 생성하고 관리하는 공학적 기법에 대해 다루고 있다.

 

책의 구성은 3개의 파트로 데이터 파이프라인을 구축하는 방법. 이를 실무에 적용하는 부분, 그리고 실시간 파이프라인 구축에 필요한 내용까지 단순히 도구를 사용해보는 것을 넘어서 데이터 엔지니어링 전반에 대한 이해와 통찰을 얻을 수 있는 책이라 생각한다.

 

데이터 공학에 대한 기본적인 통찰을 얻기 위한 입무서로는 꽤 괜찮은 책이다. 특히 각 파트 마지막장의 실무적 접근은 기본적 통찰에서 실무에 가까운 방안에 대한 이해를 돕는데 효과적이다.

 

아쉬운점도 있다. 파이썬을 활용하는 방안은 많이 부족하다. 그리고 NiFi와 같은 오픈소스 도구에 대한 내용들이 상당하고 다루는 것들도 다음과 같이 제법된다. 입문서다 보니 아무래도 초보자들에 대한 이해를 돕기위한 방안으로 몇몇 도구 중심으로 전개되는 것은 어쩔수 없을꺼라 생각이 들기도 한다.

 

총평을 하자면 그럼에도 불구하고 데이터 공학에 대한 기본적인 통찰을 얻기에 꽤 잘 정리해놓은 책이 아닌가 싶다.

 

※ 필자는 IT현업 엔지니어로, 제이펍 출판사 도서 리뷰어로 선정되어 제공받은 책을 읽고 작성한 리뷰입니다. 

 

 

 

 

728x90

댓글