Consistent Hashing 에 대해서

Consistent Hashing (일관 해싱) 은 어떤 문제를 해결하고, 어떻게 작동하며, 인터뷰에서 어떻게 활용할 수 있을까요?

Aug 27, 2025

서론

시스템 디자인 인터뷰를 준비하면서 "Consistent Hashing(일관 해싱)" 이라는 개념을 접해본 적이 있을 것입니다.
이는 분산 시스템의 기초 알고리즘으로, 데이터를 여러 서버 클러스터에 분산하는 데 사용됩니다.

온라인에는 수천 개의 설명 자료가 있지만, 대부분 지나치게 학술적이고 직관적이지 않습니다. 이 가이드는 인터뷰 준비를 위해 Consistent Hashing의 문제 정의, 동작 방식, 인터뷰 활용법을 초점 있게 다룹니다.

시나리오를 통한 이해

기본 시나리오

티켓마스터(TicketMaster) 같은 티켓팅 시스템을 설계한다고 가정해봅시다.

초기에는 하나의 데이터베이스에 모든 이벤트 데이터를 저장
클라이언트는 단일 DB에서 이벤트 정보를 요청

Client → Server → Database
처음에는 잘 작동합니다.

하지만 성공이 문제를 가져옵니다. 이벤트가 많아지면서 단일 DB가 감당하지 못합니다.
따라서 데이터를 여러 DB로 나누어 저장해야 하는데, 이를 샤딩(Sharding) 이라고 합니다. 하지만 문제가 여기서 시작이 됩니다.

문제 - 어떤 이벤트를 어느 DB에 저장할까?

첫 시도에는 단순 모듈로 해싱 (Modulo Hashing)

가장 직관적인 방법은 모듈로 연산(%) 을 사용하는 것을 고려할 수 있습니다.

이벤트 ID → 해시 함수 적용 → 숫자로 변환
그 숫자를 DB 개수로 나눈 나머지를 사용
결과값에 해당하는 DB에 이벤트를 저장

database_id = hash(event_id) % number_of_databases

예시 (DB가 3개일 때)

이벤트 #1234 → hash(1234) % 3 = 1 → DB1
이벤트 #5678 → hash(5678) % 3 = 0 → DB0
이벤트 #9012 → hash(9012) % 3 = 2 → DB2

이 방식은 처음에는 잘 작동합니다. 하지만, 노드가 추가되거나 삭제가 일어나면 문제가 발생합니다.

문제 1 - 노드 추가 시 (Adding a Node)

기존의 DB를 3개에서 4개로 늘리고 싶습니다.

database_id = hash(event_id) % 4

모듈로 방안을 통해서 늘려보았지만, 이제 문제가 발생합니다.

단지 DB 하나를 추가했을 뿐인데, 기존 대부분의 데이터가 다른 DB로 재분배되어야 합니다. 왜냐하면 기존의 데이터들이 모두 다시 계산되어 재분배가 일어나게 되기 때문입니다.
기존의 이벤트 매핑이 깨지면서 데이터 이동이 폭발적으로 발생 → DB 부하 증가, 서비스 장애

이벤트 #1234 → 원래는 DB1 → 이제는 DB0

문제2 - 노드 제거 시 (Removing a Node)

그러던 중, 만약 DB 중 하나가 장애로 내려가면?
3개에서 2개로 줄어들면서 hash(event_id) % 2 를 다시 계산해야 합니다.
→ 결국 동일한 대규모 재분배 문제가 다시 발생합니다.

위와 같은 문제점을 해결하기 위해서 Consistent Hashing 을 사용하게 됩니다.