수천만 개의 IoT 데이터를 실시간으로 분석하는 아키텍처의 핵심 - Ordered Files와 Priority Queue
글을 읽기 전에 필요한 배경지식
이 글은 실시간 스트리밍 시스템 설계, 데이터베이스 아키텍처, 자료구조에 관심 있는 분들을 위한 내용입니다.
아래 내용을 간단히 숙지하면 더 잘 이해할 수 있습니다:
정렬된 배열 / 힙(heap) 에 대한 기본 개념
디스크 I/O vs 메모리 연산 속도 차이
Spark, Kafka, Kinesis 같은 스트리밍 시스템의 기본 동작 방식
1. Ordered Files와 Priority Queue란?
Ordered Files 정렬된 파일
데이터를 키 기준(예: 타임스탬프, 사용자 ID) 으로 정렬한 채 저장
Range Query (범위 검색) 최적화
일반적으로 정렬된 Run 단위로 저장하며 필요 시 병합(Merge)
L…


