화재로 인한 서비스 장애 사건 원인: 시스템 이중화가 되어 있지 않은 인프라 구조
SK C&C 판교 데이터센터 화재로 인한 인터넷 서비스 장애 사건 - 나무위키
22시 02분 기준, 다음의 증권과 부동산 서비스가 복구되었다. 카카오는 '무료서비스 보상안'으로 전국민 이모티콘을 지급할 예정이다. 이모티콘은 3종이며 영구 사용 1종, 90일간 사용 2종을 제공
namu.wiki
http://www.ddaily.co.kr/page/view/2022120613105788224
판교 데이터센터 화재, SK C&C-카카오 ‘쌍방 과실’…원인은?
...
www.ddaily.co.kr
오토스케일링 선행 조건
Web-WAS 연결했을 때 WAS에 오토 스케일링을 처리한다고 했을 때 새로 생긴 서버를 연결하기 위해서는 ip 주소를 알아야 하기 때문에 DNS(도메인 주소)를 사용해서 도메인 통신할 수 있도록 해야한다. 로드 밸런서를 사용해서 서버에 균등하게 요청을 분배한다.
오토 스케일링: ip 통신 (X), DNS 통신(O)
복원(Restore)
고가용성 시스템 구축 시 복원 목표
RPO와 RTO 단위는 ‘시간’ (일, 시, 분, 초)
- ⭐ RPO(Recovery Point Objective): 재해 복구 시간 목표
- 장애 발생 시점에서 데이터 손실을 허용하고 그 범위를 설정
- ⭐ RTO(Recovery Time Objective): 재해 복구 시점 목표
- 장애 발생 시점부터 복구 되는 시간 목표
- 비용과 손실 반비례
백업 방법
- 일반 백업(Base Backup):
- 증분 백업(incremental Backup): 늘어난 데이터만 복원
- 복사 백업
- 차등 백업(Differential Backup): 변경된 데이터만 복원
- 합성 백업
Quiz. 매주 일요일에 Full Backup 진행 후, 월~토요일까지는 변경된 데이터에 대해서만 백업을 진행
일(Full) | 월 | 화 | 수 | 목 | 금 | 토 | |
Data | a | b | c | d | e | f | |
증분(incremental) | a | b | c | d | e | f | |
차등(differential) | a | a,b | a,b,c | a,b,c,d | a,b,c,d,e | a,b,c,d,e,f |
복구 속도: 증분이 빠름
💡 백업이란?
PC와 물리적으로 다른 분리된 장소(제 3의 위치)에 저장한다.
그래야 PC에 있는 데이터가 손실 되었을 때 복구
10. 서비스 무중단
서비스 무중단: IT 자산을 지키고 비즈니스 연속성을 필요로 하는 시스템과 데이터를 백업과 복원을 하는 것
가용성을 높이기 위해 백업과 복원이 필요하고 시스템 구축 방법에는 FT, HA, DR, Backup이 있다.
비즈니스 연속성에 따른 솔루션
종류 | 타겟 | 중단 가능 시간 | 자동화 | 비용 | Ex) |
FT (Fault Tolerant) | 중단이 절대 불가능한 시스템 | X | 완전 자동화 | 매우 비쌈 | 은행 거래, 카드 승인, 증권 거래 시스템 등 24시간 중단이 불가능한 시스템 |
HA (High Availability) | 운영 시스템 장애 시 감지하고 실시간으로 서비스 재개가 가능한 시스템 | 1-5분 이내 | 완전 자동화 권고 (상황 따라 수동) | 보통 | 대부분 일반 서비스 |
DR (Diaster Recovery) | 주 데이터 센터가 재해로 가동이 불가능할 경우를 대비해서 원격지에 동기화된 시스템 준비 | 케바케 | 케바케 | 비쌈 | 국가 전산 시스템, 회사 비즈니스 주요 핵심 서비스들 |
Backup | 과거 시점의 데이터를 보존. 언제든 복원 가능하면 됨 | 1시간 이상 | 자동 백업 후 수동 복원 | 저렴 | 웹 서버 같이 데이터 변동이 별로 없는 서비스들. |
거래 내역, 사용 기록 등 법적 보관이 필요한 데이터들 (5년) |
무중단 배포 (Zero-downtime deployment)
무중단 배포(Zero-downtime deployment)는 소프트웨어 또는 애플리케이션의 업데이트나 변경을 수행하는 동안 서비스의 가용성을 유지하는 배포 방식이다. 무중단 배포는 사용자에게 서비스 중단(downtime) 없이 신규 버전으로의 전환한다.
⭐ 이중화
- 시스템의 가용성을 높이기 위해 여러 장비를 사용하는 방법
- 고가용성: 이중화를 구성하면 가용성을 향상 시킴
- 하나의 장비에 문제가 생겨도 다른 장비에서 서비스 될 수 있도록 구성
- 종류: A-A(Active-Active), A-S(Active-Standby)
Active-Active
- 다중화 된 장비가 모두 가동되는 방식
- 모든 장비가 사용되기 때문에 처리율이 높음
- 복잡해진 구성으로 사용자 세션 관리 방법과 부하 분산 처리에 대한 방식을 고려해야 함
- Google Compute Engine에서 **[Q1. Auto Scaling]**를 구성하는 경우
Active-Standby
- 두 대를 기본으로 구성하는 형태에서 하나는 가동되고, 다른 하나는 장애 상황을 대비하여 대기시키는 방식
- Failover: 장애가 발생해서 Active 장비가 죽고 Standby 장비가 Active 상태가 되어 서비스를 하게 되는 과정
- Standby가 Active 상태로 실행되는 시간 동안은 서비스 중단이 발생하게 됨
- TCP 부하 분산 서비스의 백엔드 구성에서 **[Q2. 이 인스턴스 그룹을 백업용 장애 조치 그룹으로 사용]**로 구성하는 경우 → Standby Backend로 형성됨
- Cloud SQL에서 **[Q3. Multiple-Zone(여러 영역, 고가용성)]**로 구성하는 경우
고가용성 백분율 계산
고가용성 백분율 계산은 시스템 또는 서비스의 가용성을 백분율로 표현하는 방법이다. 가용성은 서비스가 사용 가능한 시간(운영 시간)과 총 시간(24시간 또는 월 단위)을 기반으로 계산하는데, 서비스 중단 시간을 최소화하고 고객에게 제공되는 서비스의 신뢰성을 나타내는 지표로 사용된다.
가용성(%) = (운영 시간 / 총 시간) * 100
고가용성 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 고가용성(高可用性, 영어: high availability, HA)은 서버, 네트워크, 프로그램 등의 정보 시스템이 상당히 오랜 기간 동안 지속적으로 정상 운영이 가능한 성질을 말
ko.wikipedia.org
Google Cloud Platform Service Level Agreements
The following are the Service Level Agreements for the following Google Cloud Platform services.
cloud.google.com
'Computer Science > Computer Science' 카테고리의 다른 글
Linux: 리눅스란, 쉘, 프롬포트, 로그인쉘, 터미널, 리눅스 디렉토리 구조 (1) | 2023.11.27 |
---|---|
입출력 인터페이스 (0) | 2023.07.11 |
메모리(Memory) : 하드웨어, 메모리 계층 구조 / 메모리 접근 기술: DMA, Overlay, Swapping (0) | 2023.07.11 |
RAID : RAID 0, RAID 1, RAID 5, RAID 6 (0) | 2023.07.11 |