Linux Socket 연결 개수 초과 오류
장애가 났다, 특정 연계 시스템과 연결이 안되었가 시간이 지나면 다시 연결이 되는 이상한 장애 였습니다.
방화벽 문제도 아니고 네트워크 문제도 였습니다.
원인은 소켓 연결 최대 개수가 1024(기본값) 으로 되어 있었고,
서버에서 많은 소켓 연결을 사용하여 발생하는 문제 였습니다.
이전에 비슷한 장애를 겪었던 경험과, 함께 일하는 분의 도움, 구글 검색으로 다음과 같이 해결 하였습니다.
# 프로세스가 가질수 있는 최대 소켓 & 파일 개수(open files 행 확인)
$ ulimit -a
# 프로세스가 가질수 있는 최대 소켓 & 파일 개수 증가
$ ulimit -SHn 65535