TFHost Nigeria(Oborona.zip의 호스팅 업체)에서 발생한 30여분 오류 복구 분석
by
gg582 · 2026-05-26 14:58:25 · 70 views
TFHost 장애 복구 분석
날짜: 2026-05-26
시간대: KST (UTC+9)
관측 위치: 대한민국 (KT ISP)
사용 리졸버: Cloudflare DNS (1.1.1.1)
비고: 오후 3시경에도 1회 오류 발생하였으나 1시간 30분만에 복구 성공
하단의 오류는 이후 오류 1회 추가 발생 후 30분 내외로 복구된 정보임
요약
TFHost의 DNS authority (tfhost.ng) 및 고객 VPS 네트워크 도달성에 영향을 주는 provider-level 장애가 발생하였다.
실시간 모니터링 로그에서 확인된 증상:
- DNS authority failure (
SERVFAIL) - 일시적인 resolver communication timeout
- SSH 포트 (
22/tcp) 지속적인 unreachable - DNS와 SSH의 동시 복구
- 이후 안정적인 복구 상태 확인
이 증거는 단순히 VPS 내부의 sshd 같은 서비스 하나가 죽은 것이 아니라, TFHost control plane + network plane 전체에 걸친 provider-side 장애였음을 시사한다.
관측 대상 시스템
TFHost Control Plane
호스트:
tfhost.ng
복구 후 정상 A record:
160.119.196.25
고객 VPS
호스트:
oborona.zip
정상 A record:
160.119.197.71
관측 서비스:
SSH (22/tcp)
복구 모니터링 방법
30초마다 자동 모니터링 스크립트를 실행하여:
점검 항목:
- Cloudflare (
1.1.1.1)를 통한tfhost.ngDNS 질의 - VPS (
160.119.197.71:22) TCP 연결 확인
기록 항목:
- DNS 상태
- SSH 상태
- 상태 변화 이벤트
- Full recovery 자동 탐지
실시간 복구 타임라인
초기 장애
모니터링 시작 시점:
2026-05-26 19:38:42 KST
DNS=SERVFAIL
SSH=DOWN
의미:
1.1.1.1은 응답함- 그러나 TFHost authoritative DNS는 실패
- VPS SSH는 unreachable
DNS 통신 플랩 현상
중간에 반복적으로 관측됨:
DNS=;; communications error to 1.1.1.1#53: timed out
;; no servers could be reached
중요한 정정:
이것은 TFHost가 저 응답을 반환한 것이 아니다.
의미:
- 우리 모니터링 probe가 Cloudflare (
1.1.1.1)와의 질의 자체에서 timeout 발생 - 장애 중 경로 불안정 / 패킷 손실 / 일시적 UDP timeout 가능성
이것은 아래와는 다르다:
DNS=SERVFAIL
이건 의미가:
- Cloudflare resolver는 정상 응답
- 하지만 TFHost authority가 실패
즉 DNS 장애는 두 종류로 나타남:
| 상태 | 의미 |
|---|---|
SERVFAIL |
Resolver는 살아있으나 TFHost authority 실패 |
communications error ... timed out |
Resolver 질의 경로 자체가 흔들림 |
지속적인 SSH 장애
플랩 동안 계속:
SSH=DOWN
관측 구간:
19:38:42
→
19:45:14
의미:
- VPS (
160.119.197.71)는 계속 unreachable - control plane 불안정이 compute recovery로 이어지지 않았음
동시 복구 이벤트
시점:
2026-05-26 19:45:49 KST
로그:
DNS=160.119.196.25 SSH=OPEN
EVENT DNS_CHANGED old=SERVFAIL new=160.119.196.25
EVENT SSH_CHANGED old=DOWN new=OPEN
EVENT FULL_RECOVERY
의미:
- TFHost control plane DNS 정상 A record 반환
- VPS SSH (
160.119.197.71:22) 연결 가능 - control plane + customer network path가 동시에 회복
복구 지속 확인
후속 체크:
2026-05-26 19:46:21 KST
DNS=160.119.196.25 SSH=OPEN
EVENT FULL_RECOVERY
2026-05-26 19:46:52 KST
DNS=160.119.196.25 SSH=OPEN
EVENT FULL_RECOVERY
수동 검증:
$ dig @1.1.1.1 tfhost.ng
결과:
status: NOERROR
tfhost.ng. IN A 160.119.196.25
Query time: 4 msec
시점:
2026-05-26 19:47:10 KST
기술적 해석
실제 논리적 관계
DNS Resolution Path
내 PC
→ KT ISP
→ Cloudflare (1.1.1.1)
→ TFHost authoritative nameserver
→ tfhost.ng resolves to 160.119.196.25
VPS Service Path
내 PC
→ KT ISP
→ global transit network
→ TFHost routed prefix
→ VPS 160.119.197.71
→ SSH 22/tcp
왜 동시 복구가 중요한가
복구 시점에:
DNS restored
AND
SSH restored
같은 timestamp
이 의미하는 것:
- provider-side control plane stabilization
- network/routing plane stabilization
- 단순 DNS daemon restart 수준이 아님
왜냐하면 만약 DNS만 복구되었다면:
DNS OK
SSH DOWN
이 나왔어야 한다.
하지만 실제로는:
DNS OK
SSH OPEN
동시에 나왔다.
복구 시간
모니터링 시작:
19:38:42 KST
Full recovery 탐지:
19:45:49 KST
모니터링 기준 장애 구간:
7분 7초
장애 패턴 요약
관측된 순서:
- DNS authority failure (
SERVFAIL) - DNS query path timeout
- 지속적인 VPS SSH failure
- DNS flap 반복
- DNS + SSH 동시 복구
- 안정적 복구 검증
최종 판단
이번 장애는:
Provider-level infrastructure flap
과 일치한다.
가능성:
- authoritative DNS instability
- control plane outage
- routing/prefix instability
- network recovery synchronization
핵심 증거
장애 시작
2026-05-26 19:38:42 KST
DNS=SERVFAIL
SSH=DOWN
복구 이벤트
2026-05-26 19:45:49 KST
DNS=160.119.196.25
SSH=OPEN
EVENT FULL_RECOVERY
수동 검증
2026-05-26 19:47:10 KST
status: NOERROR
tfhost.ng IN A 160.119.196.25
Query time: 4 msec
결론
TFHost는 provider-side 장애를 겪었으며:
- DNS authority
- 고객 VPS network reachability
양쪽 모두 영향을 받았다.
복구는:
- public DNS resolution
- VPS SSH connectivity
가 동시에 회복되는 형태로 나타났으며,
이는 단순 애플리케이션 레벨 복구가 아니라 인프라 레벨 복구였음을 강하게 시사한다.