Kubernetes Calico CNI와 스케줄링 실패 관계
·
Kubernetes
Kubernetes Calico CNI: 극심한 파드 지연 혹은 스케줄링 실패운영 중 약 1년간 유휴 노드 상태로 대기중인 노드의 cordon 상태를 uncordon 상태로 변경한 뒤POD 스케줄링 실패 및 calico-node pod crashloopbackoff 현상 발생등 비정상 동작을 야기했다. calico-node pod 로그와 CERN 포럼에 올라온 디버깅 무선를 참고해 왜 이런현상이 발생했는지에 대한 분석을 작성한다. (명확하지 않은 부분은 경험을 토대로 작성하였습니다. 이는 정확한 정보가 아닐 수 있음을 알려드립니다.)참고자료CERN calico 디버깅 PDF 파드 생성이 느려지거나, 무한 대기하는 경우유휴 기간이 긴 노드를 스케줄링 상태로 변경하거나, 짧은 순간에 폭발적인 배포 상태를 ..