챗GPT부터 X(트위터), 리그오브레전드(LOL)까지! 연쇄적으로 접속 장애 현상을 겪고 있습니다. 그 이유는 바로 글로벌 웹 서비스 인프라를 담당하는 클라우드플레어(Cloud flare)에 발생한 장애가 원인으로 알려졌는데요. 오류별 원인부터 조치 방법까지 지금 바로 체크하세요.👇

클라우드플레어, 일시적 접속 장애 원인 발표
문제의 원인은 바로 서비스 인프라를 담당하는 클라우드플레어의 한국 리전 네트워크 연결 장애 발생으로 밝혔습니다. 클라우드플레어는 시스템 상태 페이지에 'Network Connectivity Issues in Korea'를 공지를 통해 "한국의 네트워크에 연결 문제가 발생해 수정 사항을 적용했다"며 "문제를 해결한 후 결과를 모니터링하고 있다"라고" 전했는데요. 네트워크 연결 문제에 대한 업데이트 사항을 제공할 예정이라 전했지만 여전히 접속이 끊겼다가 복구됐다가를 반복하고 있습니다.
지난 6월에는 클라우드플레어가 구글클라우드와 연계하여 제공하는 서비스가 중단되며 글로벌 장애를 발생해 이용자들이 불편을 겪은 적이 있습니다. 이처럼 최근 급증하는 AI 컴퓨터 수요를 감당하지 못하는 현상이 잇따라 벌어지고 있는 것입니다.
관련 용어
리전(Region) : 클라우드 서비스 제공업체가 전 세계 여러 지역에 설치한 데이터센터들의 집합을 의미한다. 하나의 리전은 일반적으로 2개 이상의 데이터센터(가용 영역·Availability Zone)로 구성돼 있다. 데이터센터들은 서로 물리적으로 분리돼 있어 장애 발생 시 서비스의 연속성과 안정성을 보장한다.
API : 응용프로그램 인터페이스(Application Programming Interface)로 하나의 소프트웨어 컴포넌트가 다른 소프트웨어 컴포넌트와 상호작용할 수 있도록 설계된 인터페이스다. 즉, 소프트웨어끼리 서로 정보를 주고받고 기능을 사용하게 해주는 중간다리다.
GCP 제품 : 구글 클라우드 플랫폼이 제공하는 다양한 클라우드 서비스(제품군)를 의미한다. GCP는 구글이 자체적으로 사용하는 데이터센터 인프라를 기반으로 기업·개발자들이 애플리케이션을 구축·배포·관리하고 데이터를 저장·처리할 수 있도록 다양한 도구와 리소스를 제공한하는 클라우드 컴퓨팅 플랫폼이다.
근본적인 클라우드플레어 오류 줄이는 방법
1. 캐시 전략 최적화: 트래픽 감소 / 서버 부하 완화 / 로딩 속도 향상
*주의점: 캐시를 과도 적용하면 콘텐츠 미반영 및 로그인 세션 처리 필요함.
2. 방화벽 정책 최소화: 클라우드플레어의 WAF는 강력
*주의점: 과도한 필터링은 정상 이용자의 차단 가능성 초래할 수 있어 꼭 필요할 때만 사용할 것.
오류 조치 방법
1. 접속 오류 시, 서버 CPU 확인
2. DNS 수정 시, 최소 5분 동안 전파 대기
3. 캐시 삭제 시, 모바일과 데스크톱 별도 검사
4. 방화벽 로그에서 차단된 국가와 경로 확인
5. 이미지와 JS, 캐시 적용률 90% 이상 유지할 것
6. SSL FULL(strict) 기본 사용
7. 서버 헬스체크(keepalive) 주기 최적화
오류 장애 최소화하는 법
SSL 불일치, DNS 연결 오류처럼 기초 설정이 불완전한 경우에 대부분 발생하는 클라우드 오류! 장기적으로 예방하기 위해서는 캐시 전략과 서버 인프라 구조를 개선해 장애 가능성을 낮출 수 있다고 전해지는데요. 서버-클라우드플레어-사용자의 흐름을 기준으로 문제를 추적하여 10분 내 해결해 보세요!


