Article: Two Misconfigurations That Caused Spark OOM Failures on Kubernetes

Spark 워크로드를 Azure Kubernetes Service로 마이그레이션한 후 두 가지 설정이 충돌하며 OOM 장애가 반복 발생했다. `spark.kubernetes.local.dirs.tmpfs=true` 설정으로 셔플 스필(shuffle spill) 저장소가 디스크 대신 RAM을 사용하게 되었고, 강제적인 `podAffinity` 규칙으로 모든 executor가 단일 노드에 집중되면서 메모리 압박이 극대화되었다. 두 설정의 조합이 OOM kill을 유발했음에도 표준 진단 도구로는 원인이 드러나지 않아 탐지가 어려웠다는 점에서, Kubernetes 위에서 Spark를 운영할 때 인프라 설정 간 상호작용과 리소스 격리 전략을 면밀히 검토해야 함을 시사한다.

본 기사는 InfoQ의 내용을 기반으로 AI가 백엔드 개발자 관점에서 자동 요약한 스크랩입니다. 카테고리는 백엔드 분야에 해당하며, 관련 분야의 최신 동향 파악을 위해 매일 자동 수집됩니다.

아래 원문 링크를 통해 전체 내용을 확인할 수 있습니다.

Source
InfoQ
원문 보기 →
← 목록으로 돌아가기