최근 경험했던 RAC 설치 troubleshoot 과정
오랜만에 Linux 환경 실제 사이트에 RAC 설치를 진행했는데
grid 설치 도중 문제가 발생해 원인을 잡는다고 2시간 반을 소모했다.
grid 과정 중 노드 add하고 ssh 설정과 test 할 수 있는 단계의 다음 단계가 진행이 안된다.
확인해보니 exectask를 remote node에서 retrieve할 수 없다고 한다.
(version of exectask could not be retrieved from node node02)
runcluvfy도 시도해보았지만 3번째 확인 과정에서 역시 hang되어버렸다.
한참 있다가 ctrl+c로 취소하면 비슷한 에러메시지가 나타난다.
음.. 왜그럴까 처음엔 OS 보안 설정을 의심했었다.
그런데 좀 자세히 조사해보니 node1의 /tmp/CVU_11.2.0.4.0_grid 밑에 약 30개의 sh 파일이 있고 그 중에 exectask.sh가 있다.
하지만 node2는 디렉토리는 있는데 스크립트가 하나밖에 없는 상태였다.
1. 음 혹시? 하고 scp로 /tmp/CVU_11.2.0.4.0_grid 아래의 모든 파일을 node2의 같은 위치로 넘겨보았다.(public hostname으로)
파일이 하나 전송되다가 더 진행이 되지 않네?
2. reboot을 해보았다. 동일 증상이다.
원래대로라면 설치했던 OS 엔지니어에게 확인해달라고 하겠지만, OS 설치 엔지니어는 새벽까지 설치해서 연락하기 힘든 상황이다. 원인을 찾기 위해 계속 다른 시도를 해보았다.
3. node2에서 node1로 파일을 아무거나 넘겨보았다. 안된다.
4. 여태 grid 유저로 시도했었는데, root도 안되나? 안된다
5. root 유저와 grid 유저의 ~/.ssh 아래 내용을 전부 삭제하고 시도. 안된다..
6. private 링크(인터커넥트)를 통해서는 될까? 된!다!된!다!!
그럼 설마?? 서버 설치 요구사항에 Jumboframe을 위해 MTU 9000 설정해달라고 했는데, 인터커넥트는 9000이 맞는데 왠걸 ifconfig -a로 확인해보니 양쪽 노드 모두 public 링크까지 MTU를 9000 설정되어있는걸 확인했다.
public 인터페이스의 MTU size를 1500으로 변경하고 scp 전송 정상 확인하고 grid 막혔던 부분도 진행되어 무사히 설치 완료.
중간중간 메타링크와 구글을 확인해보았지만 이 문제는 둘 다 도움을 줄 수 없었다.
나름 재미있었던 케이스였다.