I/O 병목과 ETCD 그리고 API 서버
·
Kubernetes
운영 중이던 쿠버네티스 클러스터에서 특정 노드가 갑자기 NotReady 상태로 전환되는 장애가 발생했다.일반적으로 노드 장애는 kubelet 다운이나 자원 고갈을 의심하기 마련이다. 하지만 이번 케이스는 로그 분석 결과, 노드가 아닌 etcd의 성능 저하가 나비효과를 일으켜 발생한 사건이었다. 이 글에서는 etcd 지연 → apiserver 응답 불가 → kubelet 갱신 실패로 이어지는 장애의 인과관계를 실제 로그 패턴과 함께 살펴본다. 이전 글인 "Kubernetes Node Life Cycle - 노드의 생명주기" 밀접한 글이므로 이전 글을 확인하고 오시면 더 좋습니다. Kubernetes Node Life Cycle - 노드의 생명주기쿠버네티스에서 노드 헬스 체크(Node Health Chec..