본문 바로가기
카테고리 없음

Google Cloud Protective ReRoute로 네트워크 복원성 향상 가이드

by 나의공간만들기 2026. 1. 2.

    [ 목차 ]

개요

Protective ReRoute(PRR)는 Google Cloud의 네트워크 신뢰성을 크게 향상시키는 메커니즘입니다. 전통적인 네트워크 복구 방식이 라우터/링크 장애 후 전체 라우팅 재수립(재수렴)을 기다리는 동안 발생하는 지연 문제를 해결하기 위해 고안된 엔드포인트 주도 재경로 기술입니다. 특히 대규모 AI/ML 분산 워크로드처럼 패킷 손실에 민감한 서비스에서 유용합니다.

Google Cloud Protective ReRoute로 네트워크 복원성 향상 가이드

전통적 네트워크 장애 복구의 한계

  1. 라우팅 재수렴 지연
    장애가 발생하면 기존 네트워크는 전체 라우팅 테이블을 다시 계산해 경로를 복구합니다. 구글과 같은 대규모 글로벌 네트워크에서는 이 과정이 수초에서 수십초까지 걸릴 수 있습니다.
  2. 애플리케이션 영향
    분산 AI 트레이닝, 실시간 미디어, 게임 등 실시간성 요구가 높은 서비스는 이러한 짧은 지연에도 민감합니다. 몇 초의 패킷 손실은 애플리케이션 실패나 오랜 재시작 비용으로 이어질 수 있습니다.

PRR 개념 및 동작 원리

엔드포인트 주도 장애 탐지

PRR은 통신 호스트(엔드포인트) 자체가 경로 이상을 감지하고 대체 경로로 트래픽을 재지정할 수 있게 합니다. 기본 동작은 다음과 같습니다:

  • 장애 신호 감지
    Linux 기준으로 TCP 재전송 타임아웃(RTO) 등을 통해 현재 경로의 문제를 감지합니다. 감지 시간은 일반적으로 단일 왕복지연(RTT)의 1자리 배수 수준입니다.
  • 헤더 필드 수정
    장애 감지 후, 송신 호스트는 관련 패킷 헤더 필드를 조작하여 네트워크가 다른 사전 존재하는 경로로 패킷을 포워딩하도록 유도합니다.

네트워크 레벨의 변화

PRR 도입 이전의 전통적 네트워크 신뢰도 모델은 “각 포워딩 단계가 신뢰도를 떨어뜨리는 직렬 모델”이었습니다. PRR 적용 시에는 경로 다양성이 극대화되고, 전체 신뢰도는 경로의 조합 수에 비례하게 증가합니다.

PRR 구성 요소

PRR은 크게 세 가지 핵심 요소를 기반으로 동작합니다:

  1. End-to-End Failure Detection
    엔드포인트가 지속적으로 현재 경로의 상태를 모니터링합니다. Linux에서는 TCP RTO가 대표적인 신호입니다.
  2. Host-side Packet Header Modification
    장애가 감지되면 송신 호스트가 패킷 헤더 일부를 수정하여 대체 경로 선택을 유도합니다. Google은 Linux 커널(4.20+)에 IPv6 flow-label 기반 메커니즘을 기여했습니다.
  3. PRR-aware Forwarding
    네트워크 스위치/라우터는 해당 헤더 기반으로 패킷을 장애를 우회하는 다른 경로로 포워딩합니다.

구글 클라우드에서 PRR 설정하기

Google Cloud에서 PRR을 활용하려면 Hypervisor 모드Guest 모드 두 가지 옵션이 있습니다.

Hypervisor 모드(기본)

  • 대부분의 VM 트래픽이 자동으로 보호됩니다.
  • 고객 OS나 애플리케이션 변경이 필요 없습니다.
  • 중간 수준의 팬아웃(fan-out)을 가지는 트래픽에 적합합니다.

Guest 모드(고급)

보다 빠른 장애 감지 및 회복을 요구하는 경우 Guest 모드를 적용합니다:

  1. VM Guest OS 요건
    • Linux kernel 4.20 이상
    • TCP 트래픽
    • IPv6 트래픽 (IPv4의 경우 gVNIC 드라이버 필요)
  2. Guest 모드 활성화
    # 예시: (Google 문서 참고)
    gcloud compute instances update <INSTANCE_NAME> \ --enable-protective-reroute-guest-mode
    실제 명령어와 플래그는 문서 기준으로 확인 바랍니다. 위 예시는 구조적 의미입니다.
  3. Google Cloud 콘솔 또는 gcloud CLI에서 Guest 모드 옵션을 활성화한다는 문서 지침을 따릅니다.

PRR 적용 시기 및 사례

PRR은 모든 워크로드에 필수는 아니지만 다음과 같은 경우 적용하면 이점이 큽니다:

  • 대규모 AI/ML 분산 트레이닝
    워크로드 간 넓은 커뮤니케이션 패턴에서 장애 민감도 높음.
  • 실시간 서비스
    게임, 음성/영상 통화 등 짧은 복구 시간 요구.
  • 데이터 무결성 중요 서비스
    빈번한 재전송으로 인한 데이터 훼손/손실 위험 최소화.

효과 검증 및 참고

실제 구글 내부에서 PRR은 5년 이상 실제 프로덕션 트래픽 보호에 활용되어 왔고, 전통적인 네트워크 재수렴 실패로 인한 장애의 약 80% 이상을 회피하는 것으로 보고되었습니다.

마무리

Protective ReRoute는 기존 라우팅 기반 복원성 모델을 전환하는 기술로서, 특히 대규모, 패킷 손실 민감 서비스에서 네트워크 복원성 확보에 유의미한 솔루션입니다. Google Cloud 환경에서는 Hypervisor 모드로 기본 보호를 제공하면서, Guest 모드로 빠른 장애 대응이 가능합니다. 실제 적용 시점과 요건을 고려하여 설정을 진행할 수 있습니다.