TFHost Nigeria(Oborona.zip의 호스팅 업체)에서 발생한 30여분 오류 복구 분석

by gg582 · 2026-05-26 14:58:25 · 70 views

TFHost 장애 복구 분석

날짜: 2026-05-26
시간대: KST (UTC+9)
관측 위치: 대한민국 (KT ISP)
사용 리졸버: Cloudflare DNS (1.1.1.1)

비고: 오후 3시경에도 1회 오류 발생하였으나 1시간 30분만에 복구 성공

하단의 오류는 이후 오류 1회 추가 발생 후 30분 내외로 복구된 정보임


요약

TFHost의 DNS authority (tfhost.ng) 및 고객 VPS 네트워크 도달성에 영향을 주는 provider-level 장애가 발생하였다.

실시간 모니터링 로그에서 확인된 증상:

  • DNS authority failure (SERVFAIL)
  • 일시적인 resolver communication timeout
  • SSH 포트 (22/tcp) 지속적인 unreachable
  • DNS와 SSH의 동시 복구
  • 이후 안정적인 복구 상태 확인

이 증거는 단순히 VPS 내부의 sshd 같은 서비스 하나가 죽은 것이 아니라, TFHost control plane + network plane 전체에 걸친 provider-side 장애였음을 시사한다.


관측 대상 시스템

TFHost Control Plane

호스트:

tfhost.ng

복구 후 정상 A record:

160.119.196.25

고객 VPS

호스트:

oborona.zip

정상 A record:

160.119.197.71

관측 서비스:

SSH (22/tcp)

복구 모니터링 방법

30초마다 자동 모니터링 스크립트를 실행하여:

점검 항목:

  1. Cloudflare (1.1.1.1)를 통한 tfhost.ng DNS 질의
  2. VPS (160.119.197.71:22) TCP 연결 확인

기록 항목:

  • DNS 상태
  • SSH 상태
  • 상태 변화 이벤트
  • Full recovery 자동 탐지

실시간 복구 타임라인

초기 장애

모니터링 시작 시점:

2026-05-26 19:38:42 KST
DNS=SERVFAIL
SSH=DOWN

의미:

  • 1.1.1.1은 응답함
  • 그러나 TFHost authoritative DNS는 실패
  • VPS SSH는 unreachable

DNS 통신 플랩 현상

중간에 반복적으로 관측됨:

DNS=;; communications error to 1.1.1.1#53: timed out
;; no servers could be reached

중요한 정정:

이것은 TFHost가 저 응답을 반환한 것이 아니다.

의미:

  • 우리 모니터링 probe가 Cloudflare (1.1.1.1)와의 질의 자체에서 timeout 발생
  • 장애 중 경로 불안정 / 패킷 손실 / 일시적 UDP timeout 가능성

이것은 아래와는 다르다:

DNS=SERVFAIL

이건 의미가:

  • Cloudflare resolver는 정상 응답
  • 하지만 TFHost authority가 실패

즉 DNS 장애는 두 종류로 나타남:

상태 의미
SERVFAIL Resolver는 살아있으나 TFHost authority 실패
communications error ... timed out Resolver 질의 경로 자체가 흔들림

지속적인 SSH 장애

플랩 동안 계속:

SSH=DOWN

관측 구간:

19:38:42
→
19:45:14

의미:

  • VPS (160.119.197.71)는 계속 unreachable
  • control plane 불안정이 compute recovery로 이어지지 않았음

동시 복구 이벤트

시점:

2026-05-26 19:45:49 KST

로그:

DNS=160.119.196.25 SSH=OPEN
EVENT DNS_CHANGED old=SERVFAIL new=160.119.196.25
EVENT SSH_CHANGED old=DOWN new=OPEN
EVENT FULL_RECOVERY

의미:

  • TFHost control plane DNS 정상 A record 반환
  • VPS SSH (160.119.197.71:22) 연결 가능
  • control plane + customer network path가 동시에 회복

복구 지속 확인

후속 체크:

2026-05-26 19:46:21 KST
DNS=160.119.196.25 SSH=OPEN
EVENT FULL_RECOVERY
2026-05-26 19:46:52 KST
DNS=160.119.196.25 SSH=OPEN
EVENT FULL_RECOVERY

수동 검증:

$ dig @1.1.1.1 tfhost.ng

결과:

status: NOERROR
tfhost.ng. IN A 160.119.196.25
Query time: 4 msec

시점:

2026-05-26 19:47:10 KST

기술적 해석

실제 논리적 관계

DNS Resolution Path

내 PC
→ KT ISP
→ Cloudflare (1.1.1.1)
→ TFHost authoritative nameserver
→ tfhost.ng resolves to 160.119.196.25

VPS Service Path

내 PC
→ KT ISP
→ global transit network
→ TFHost routed prefix
→ VPS 160.119.197.71
→ SSH 22/tcp

왜 동시 복구가 중요한가

복구 시점에:

DNS restored
AND
SSH restored
같은 timestamp

이 의미하는 것:

  • provider-side control plane stabilization
  • network/routing plane stabilization
  • 단순 DNS daemon restart 수준이 아님

왜냐하면 만약 DNS만 복구되었다면:

DNS OK
SSH DOWN

이 나왔어야 한다.

하지만 실제로는:

DNS OK
SSH OPEN

동시에 나왔다.


복구 시간

모니터링 시작:

19:38:42 KST

Full recovery 탐지:

19:45:49 KST

모니터링 기준 장애 구간:

7분 7초

장애 패턴 요약

관측된 순서:

  1. DNS authority failure (SERVFAIL)
  2. DNS query path timeout
  3. 지속적인 VPS SSH failure
  4. DNS flap 반복
  5. DNS + SSH 동시 복구
  6. 안정적 복구 검증

최종 판단

이번 장애는:

Provider-level infrastructure flap

과 일치한다.

가능성:

  • authoritative DNS instability
  • control plane outage
  • routing/prefix instability
  • network recovery synchronization

핵심 증거

장애 시작

2026-05-26 19:38:42 KST
DNS=SERVFAIL
SSH=DOWN

복구 이벤트

2026-05-26 19:45:49 KST
DNS=160.119.196.25
SSH=OPEN
EVENT FULL_RECOVERY

수동 검증

2026-05-26 19:47:10 KST
status: NOERROR
tfhost.ng IN A 160.119.196.25
Query time: 4 msec

결론

TFHost는 provider-side 장애를 겪었으며:

  • DNS authority
  • 고객 VPS network reachability

양쪽 모두 영향을 받았다.

복구는:

  • public DNS resolution
  • VPS SSH connectivity

동시에 회복되는 형태로 나타났으며,

이는 단순 애플리케이션 레벨 복구가 아니라 인프라 레벨 복구였음을 강하게 시사한다.

Back

Comments

No comments yet.