[견고한 데이터 엔지니어링] CH11 데이터 엔지니어링의 미래

본문 바로가기

Recent Posts

Recent Comments

Tags more

Archives

Today

Total

관리 메뉴

새발블로그

[견고한 데이터 엔지니어링] CH11 데이터 엔지니어링의 미래 본문

Data Engineering/BOOK

[견고한 데이터 엔지니어링] CH11 데이터 엔지니어링의 미래

EUG 2026. 2. 8. 15:31

1) 사라지지 않는 데이터 엔지니어링 수명 주기

조직이 데이터를 새로운 방식으로 활용하면, 그 요구를 해결하기 위한 새 시스템/워크플로가 필요해진다.
데이터 엔지니어링은 여전히 시스템의 디자인·설계·구축·유지관리의 중심에 있다.
결과적으로 “더 높은 작업 수준(추상화된 도구 위에서 더 큰 문제를 푸는 일)”로 이동한다.

2) 복잡성의 감소와 사용하기 쉬운 데이터

복잡성 감소는 “특정 기술/데이터 크기”에 덜 의존하게 되는 흐름.
SaaS/관리형 서비스 덕분에 빅데이터 시스템의 내부를 깊이 몰라도 일정 수준의 활용이 가능해짐.

예시로 등장한 흐름

클라우드 웨어하우스/분석: 구글 BigQuery, Snowflake
확장형 빅데이터 처리: Amazon EMR 등
서버리스 플랫폼: AWS Lambda, Google Cloud Functions
오케스트레이션의 관리형화: Cloud Composer(관리형 Airflow), AWS Managed Airflow
인프라 운영 추상화: 관리형 Kubernetes로 마이크로서비스 아키텍처 구축
데이터 수집 커넥터 상용화: Fivetran, Airbyte 등

3) 클라우드 규모의 데이터 OS와 향상된 상호 운용성

(벤 스탠실 언급) 데이터 파이프라인/데이터 애플리케이션을 만들기 위한 표준화된 데이터 API의 출현을 촉구하는 흐름
소수의 상호운용성 표준 중심으로 통합되는 방향
핵심 구성요소:
- 메타데이터 카탈로그: 스키마와 데이터 계층 구조를 설명 (기존 Hive Metastore가 맡던 역할을 더 확장)
- 스캐폴딩(초기 뼈대) 개선: 프로젝트 시작할 때부터 운영/배포/표준 구성이 갖춰진 상태를 지향
- 차세대 오케스트레이션: Dagster, Prefect 같은 도구가 더 “데이터 인식”을 갖춘 플랫폼으로 발전

차세대 데이터 오케스트레이션 플랫폼의 특징

향상된 데이터 통합 + 데이터 인식 기능
IaC 기능, 코드 배포 기능 내장
라이브 데이터(스트리밍 파이프라인/데이터베이스)를 기본으로 지원
스트리밍 DAG 배포를 단순화(예: “간단 코드로 스트리밍 DAG 배포”)
관리형 스트림 프로세서 확산(예: 키네시스, 데이터플로 같은 계열)

4) ‘엔터프라이즈’ 데이터 엔지니어링의 확산

데이터 엔지니어링이 더 “기업적(엔터프라이즈)”이 된다.
대규모 조직에서 쓰던 기술/관행이 아래로 내려오면서(다운스트림)
- 빅데이터/스트리밍의 어려운 부분은 점점 추상화
- 초점은 사용 편의성, 상호운용성 같은 생산성 개선으로 이동

5) 직책과 책임의 변화

소프트웨어 엔지니어링 / 데이터 엔지니어링 / 데이터 과학 / ML 엔지니어링 경계가 더 모호해진다.

ML 중심 엔지니어링이 강화되는 방향

알고리즘/ML 기술/모델 최적화/모델 모니터링/데이터 모니터링
모델 자동 학습, 성능 모니터링, ML 프로세스 운영 시스템

소프트웨어 엔지니어링과의 교차점

애플리케이션 분석과 결합(제품 내부에서 바로 분석/의사결정)
스트리밍, 파이프라인, 데이터 모델링, 데이터 품질 같은 전통 DE 영역이 SW 영역으로 더 들어감
스트리밍 및 이벤트 기반 아키텍처의 중요도가 커짐

6) 모던 데이터 스택(MDS)을 넘어 라이브 데이터 스택으로

“MDS는 모던하지 않다”는 비판: 배치 중심의 한계가 있음
분석은 점점 자동화로 대체될 수 있음
현재의 대시보드/보고서는 “무엇(what), 언제(when)” 질문에 강하지만,
- 라이브 환경은 “지금 바로 반응/행동”까지 연결해야 함

6-1. 라이브 데이터 스택이란?

스트리밍 기술로 실시간 분석과 ML을 애플리케이션에 융합
원천 시스템에서 데이터 처리 → ML까지 전체 데이터 수명주기를 포괄

6-2. 스트리밍 파이프라인 + 실시간 분석 데이터베이스

MDS는 데이터를 경계가 있는 배치로 다루는 경향
실시간 데이터 애플리케이션은 데이터를 경계 없는 연속 스트림으로 취급
실시간 분석 DB 특징:
- 빠른 수집
- 1초 미만 쿼리 같은 초저지연 지향
STL 개념:
- Stream → Transform → Load
레이크/웨어하우스는 “짧은 수집 지연 + 초고속 쿼리”에 최적화되어 있지 않을 수 있음
→ 라이브 데이터 스택은 OLAP DB 기반으로 구동된다는 관점

6-3. 데이터와 애플리케이션의 융합

애플리케이션과 데이터 계층이 합쳐지면서
- “애플리케이션이 곧 데이터 스택”이 되는 방향
스트리밍 + ML 기반으로 실시간 자동화/의사결정까지 통합

6-4. 애플리케이션과 ML 간의 긴밀한 피드백

대량 데이터 + 정교한 워크플로 + 액션 결합은 ML에 적합
데이터 피드백 루프가 짧아질수록 앱 ↔ ML 피드백도 긴밀해짐

6-5. 암흑 물질 데이터와 스프레드시트의 부상

“암흑 물질 데이터”: 공식 시스템 밖에서 생성/흐르는 데이터가 늘어남
스프레드시트는 단순 문서가 아니라 복잡한 분석을 지원하는 대화형 데이터 애플리케이션처럼 사용됨

'Data Engineering > BOOK' 카테고리의 다른 글

[견고한 데이터 엔지니어링] CH10 보안과 개인정보보호 (0)	2026.02.08
[견고한 데이터 엔지니어링] CH9 5단계: 분석, 머신러닝 및 역 ETL을 위한 데이터 서빙 (0)	2026.02.08
[견고한 데이터 엔지니어링] CH8 4단계: 쿼리 모델링 및 데이터 변환 (1)	2026.01.31
[견고한 데이터 엔지니어링] CH7 3단계: 데이터 수집 (0)	2026.01.31
[견고한 데이터 엔지니어링] CH6 2단계: 데이터 저장 (0)	2026.01.29

'Data Engineering/BOOK' Related Articles

more

티스토리툴바