새발블로그
EUG
새발블로그
[견고한 데이터 엔지니어링] CH11 데이터 엔지니어링의 미래 본문
1) 사라지지 않는 데이터 엔지니어링 수명 주기
- 조직이 데이터를 새로운 방식으로 활용하면, 그 요구를 해결하기 위한 새 시스템/워크플로가 필요해진다.
- 데이터 엔지니어링은 여전히 시스템의 디자인·설계·구축·유지관리의 중심에 있다.
- 결과적으로 “더 높은 작업 수준(추상화된 도구 위에서 더 큰 문제를 푸는 일)”로 이동한다.
2) 복잡성의 감소와 사용하기 쉬운 데이터
- 복잡성 감소는 “특정 기술/데이터 크기”에 덜 의존하게 되는 흐름.
- SaaS/관리형 서비스 덕분에 빅데이터 시스템의 내부를 깊이 몰라도 일정 수준의 활용이 가능해짐.
예시로 등장한 흐름
- 클라우드 웨어하우스/분석: 구글 BigQuery, Snowflake
- 확장형 빅데이터 처리: Amazon EMR 등
- 서버리스 플랫폼: AWS Lambda, Google Cloud Functions
- 오케스트레이션의 관리형화: Cloud Composer(관리형 Airflow), AWS Managed Airflow
- 인프라 운영 추상화: 관리형 Kubernetes로 마이크로서비스 아키텍처 구축
- 데이터 수집 커넥터 상용화: Fivetran, Airbyte 등
3) 클라우드 규모의 데이터 OS와 향상된 상호 운용성
- (벤 스탠실 언급) 데이터 파이프라인/데이터 애플리케이션을 만들기 위한 표준화된 데이터 API의 출현을 촉구하는 흐름
- 소수의 상호운용성 표준 중심으로 통합되는 방향
- 핵심 구성요소:
- 메타데이터 카탈로그: 스키마와 데이터 계층 구조를 설명 (기존 Hive Metastore가 맡던 역할을 더 확장)
- 스캐폴딩(초기 뼈대) 개선: 프로젝트 시작할 때부터 운영/배포/표준 구성이 갖춰진 상태를 지향
- 차세대 오케스트레이션: Dagster, Prefect 같은 도구가 더 “데이터 인식”을 갖춘 플랫폼으로 발전
차세대 데이터 오케스트레이션 플랫폼의 특징
- 향상된 데이터 통합 + 데이터 인식 기능
- IaC 기능, 코드 배포 기능 내장
- 라이브 데이터(스트리밍 파이프라인/데이터베이스)를 기본으로 지원
- 스트리밍 DAG 배포를 단순화(예: “간단 코드로 스트리밍 DAG 배포”)
- 관리형 스트림 프로세서 확산(예: 키네시스, 데이터플로 같은 계열)
4) ‘엔터프라이즈’ 데이터 엔지니어링의 확산
- 데이터 엔지니어링이 더 “기업적(엔터프라이즈)”이 된다.
- 대규모 조직에서 쓰던 기술/관행이 아래로 내려오면서(다운스트림)
- 빅데이터/스트리밍의 어려운 부분은 점점 추상화
- 초점은 사용 편의성, 상호운용성 같은 생산성 개선으로 이동
5) 직책과 책임의 변화
- 소프트웨어 엔지니어링 / 데이터 엔지니어링 / 데이터 과학 / ML 엔지니어링 경계가 더 모호해진다.
ML 중심 엔지니어링이 강화되는 방향
- 알고리즘/ML 기술/모델 최적화/모델 모니터링/데이터 모니터링
- 모델 자동 학습, 성능 모니터링, ML 프로세스 운영 시스템
소프트웨어 엔지니어링과의 교차점
- 애플리케이션 분석과 결합(제품 내부에서 바로 분석/의사결정)
- 스트리밍, 파이프라인, 데이터 모델링, 데이터 품질 같은 전통 DE 영역이 SW 영역으로 더 들어감
- 스트리밍 및 이벤트 기반 아키텍처의 중요도가 커짐
6) 모던 데이터 스택(MDS)을 넘어 라이브 데이터 스택으로
- “MDS는 모던하지 않다”는 비판: 배치 중심의 한계가 있음
- 분석은 점점 자동화로 대체될 수 있음
- 현재의 대시보드/보고서는 “무엇(what), 언제(when)” 질문에 강하지만,
- 라이브 환경은 “지금 바로 반응/행동”까지 연결해야 함
6-1. 라이브 데이터 스택이란?
- 스트리밍 기술로 실시간 분석과 ML을 애플리케이션에 융합
- 원천 시스템에서 데이터 처리 → ML까지 전체 데이터 수명주기를 포괄
6-2. 스트리밍 파이프라인 + 실시간 분석 데이터베이스
- MDS는 데이터를 경계가 있는 배치로 다루는 경향
- 실시간 데이터 애플리케이션은 데이터를 경계 없는 연속 스트림으로 취급
- 실시간 분석 DB 특징:
- 빠른 수집
- 1초 미만 쿼리 같은 초저지연 지향
- STL 개념:
- Stream → Transform → Load
- 레이크/웨어하우스는 “짧은 수집 지연 + 초고속 쿼리”에 최적화되어 있지 않을 수 있음
- → 라이브 데이터 스택은 OLAP DB 기반으로 구동된다는 관점
6-3. 데이터와 애플리케이션의 융합
- 애플리케이션과 데이터 계층이 합쳐지면서
- “애플리케이션이 곧 데이터 스택”이 되는 방향
- 스트리밍 + ML 기반으로 실시간 자동화/의사결정까지 통합
6-4. 애플리케이션과 ML 간의 긴밀한 피드백
- 대량 데이터 + 정교한 워크플로 + 액션 결합은 ML에 적합
- 데이터 피드백 루프가 짧아질수록 앱 ↔ ML 피드백도 긴밀해짐
6-5. 암흑 물질 데이터와 스프레드시트의 부상
- “암흑 물질 데이터”: 공식 시스템 밖에서 생성/흐르는 데이터가 늘어남
- 스프레드시트는 단순 문서가 아니라 복잡한 분석을 지원하는 대화형 데이터 애플리케이션처럼 사용됨