Kubernetes Calico CNI와 스케줄링 실패 관계
·
Kubernetes
Kubernetes Calico CNI: 극심한 파드 지연 혹은 스케줄링 실패운영 중 약 1년간 유휴 노드 상태로 대기중인 노드의 cordon 상태를 uncordon 상태로 변경한 뒤POD 스케줄링 실패 및 calico-node pod crashloopbackoff 현상 발생등 비정상 동작을 야기했다. calico-node pod 로그와 CERN 포럼에 올라온 디버깅 무선를 참고해 왜 이런현상이 발생했는지에 대한 분석을 작성한다. (명확하지 않은 부분은 경험을 토대로 작성하였습니다. 이는 정확한 정보가 아닐 수 있음을 알려드립니다.)참고자료CERN calico 디버깅 PDF 파드 생성이 느려지거나, 무한 대기하는 경우유휴 기간이 긴 노드를 스케줄링 상태로 변경하거나, 짧은 순간에 폭발적인 배포 상태를 ..
Kubernetes Internal Network 변경 절차
·
Kubernetes
서두운영 중인 네트워크 대역을 변경하는 일은 매우 높은 위험을 동반하기에 권장하지 않으며, 공식 문서 또한 노드 정보 변경 시 재등록을 권장합니다.노드 이름 고유성 섹션에서 언급했듯이, 노드 구성을 업데이트해야 하는 경우 API 서버에 노드를 다시 등록하는 것이 좋다. 예를 들어 kubelet이 --node-labels 의 새로운 구성으로 다시 시작되더라도, 동일한 노드 이름이 사용된 경우 레이블이 해당 노드의 등록에 설정되기 때문에 변경 사항이 적용되지 않는다. (공식 문서 발췌) ( 공식 사이트에서 발췌한 내용을 기반으로 작성하였으나, 일부는 경험을 토대로 정리했습니다. 정확하지 않을 수 있음을 알려드립니다. )공식 사이트광고 클릭은 큰 힘이 됩니다! 노드쿠버네티스는 컨테이너를 파드내에 배치하고 노..
[Calico] calico-node Routing 경로 불일치로 인한 pod to pod 통신 실패
·
Kubernetes
서두Kubernetes 클러스터 운영중 Calico CNI를 사용하는 경우, 노드에 여러 NIC가 존재할 때 특정 (대규모 재앙급 장애) 상황에서 라우팅 인터페이스가 예상과 다르게 설정되어 pod to pod 통신 불가로 인한 Service Discovery, DNS, API 서버와의 통신까지 실패하는 상황이 발생했다. 이번 글에서는 실제 운영 환경에서 발생한 라우팅 경로 인터페이스 불일치로 인한 복합 장애 사례와 그 해결 방법을 정리한다. ( 공식 사이트에서 발췌한 내용을 기반으로 작성하였으나, 명확하지 않은 부분은 경험을 토대로 작성하였습니다. 이는 정확한 정보가 아닐 수 있음을 알려드립니다.)공식 사이트광고 클릭은 큰 힘이 됩니다! Configure IP autodetection | Calico ..