본문 바로가기
일/개발, IT정보

Windows Server 스토리지 오류 / 백업 실패 현상

[주제]

- 스토리지 오류로 인한 백업 실패 현상

 

[환경]

- Windows / Storage

 

[Preview]

1.    OS가 설치되어 있는 서버는 다양한 시스템으로 구성되어 있습니다.

2.    서버 내부의 CPU, RAM, 메인보드, 디스크뿐만 아니라 외부의 스위치, 스토리지 등과 긴밀히 연결하여 서비스를 제공하고 있습니다.

3.    다양한 시스템 중 저장장치 중 큰 부분을 차지하는 Storage에 대한 오류 및 가이드 사례를 공유드립니다.

 

[사전지식]

1. Storage(스토리지) 란?

   A. 컴퓨터의 데이터를 저장하는 저장소의 역할을 수행하는 부품

B. 컴퓨터의 하드디스크와 동일한 역할을 수행하는 부품

C. 스토리지를 직접 서버에 연결 가능

D. 대용량의 데이터를 저장하기 위해 별도의 스토리지용 네트워크를 구성할 수 있음

 

[기술문의]

   1.    서버 윈도우 백업 실패 원인 분석 및 해결방안

   2.    Windows 기본백업 작업 시 특정 크기까지 백업을 진행하면(네트워크 공유 폴더로 파일을 전송) 중지가 되면서 실패 상태로 변경

 

[Key Point]

Backup 실패할 당시 윈도우 이벤트 뷰어에 event ID 153이 발생

 

 

 

[원인분석]

 Backup이 실패할 당시 event Id 153이 시스템 로그에 기록되었습니다.

Disk 153 메시지는 기본적으로 OS 문제로 인하여 기록되는 것이 아니라 Disk Subsystem에서 문제가 발생했을 때,

 Miniport Driver(일반적으로 HBA driver)에서 이를 Report하고 최종적으로 ClassPnp Driver(일반적으로 Disk.sys)에서 

이벤트를 기록해주게 됩니다. 

 

 즉, OS 입장에서는 Miniport Driver를 통해서 밖으로 나간 SCSI Command에 대한 Return 값에 문제가 있으면 이를 기록해주는 것입니다.

따라서, 아래 그림에서 확인 가능한 Windows Storage Stack 중 Hardware 관련된 내용은 

Disk Subsystem(HBA Driver <-> HBA(GBiC 포함) <-> Fibre Channel <-> Fabric Switch <-> Storage)를 모두 점검해야 합니다.

 

 

- 전반적인 Application à 저장장치 간 계층 구조 상세

 

[해결방안]

스토리지 업체와 함께 Disk Subsystem(HBA Driver <-> HBA(GBiC 포함) <-> Fibre Channel <-> Fabric Switch <-> Storage)에 대한 점검 후 문제 해결

 

[용어설명]

1.    Disk Subsystem : 물리 디스크 내부에 있는 관리 시스템

2.    HBA(Host Bus Adapter): 서버와 장비 사이의 통신을 위해 서버에 장착하는 카드

3.    Fiber Channel: HBA 기반의 DAS(Disk Array System)와 직접 연결 또는 SAN (Storage Network Area)환경에서 

    연결을 하여 호스트와 Disk Array간에 인터페이스를 할 수 있도록 하는 HBA

4.    Fabric Switch: SAN 환경에서 사용하는 SAN 전용 스위치

 

[사례요약]

1.    윈도우 서버 백업 실패 현상 발생

2.    Backup 실패 당시 이벤트 뷰어에 event id 153 발생

3.    상기 현상은 OS 문제가 아닌 스토리지 물리적인 문제이므로 스토리지 업체와 함께 문제 분석 필요

 

[시사점]

   1.    IT서비스는 다양하고 많은 시스템들로 구성되어 있습니다.

   2.    우리는 간혹 장애가 발생했을 때 장애가 발생한 부분에 대해서만 접근하는 경우가 많습니다.

   3.    장애는 발생한 부분이 문제가 있는 경우도 있지만 다른 부분과의 연계에 의해 다발적으로 발생한 경우도 있습니다. 

   4.    장애에 대한 접근 방식을 좀 더 넓은 시야에서 다양한 가능성으로 접근하는 것이 장애 해결 시간을 단축 할 수 있는 지름길 일 것 입니다.