博文

배터리 1개서 스파크 ‘발화’…데이터센터 설계·관리 도마에

图片
  분주한 복구작업 경기 성남시 분당구 삼평동  SK   C&C  데이터센터 화재 현장에서  17 일 전기안전공사 등 유관기관 관계자들이 복구작업을 하고 있다. 문재원 기자 데이터센터 화재로 카카오의 주요 서비스가 마비되면서 정보통신기술( ICT ) 업계의 ‘비상 재해복구( DR·Disaster   Recovery ) 시스템’도 주목받고 있다. 17 일 카카오에 따르면 지난  15 일 오후  SK   C&C  판교데이터센터에서 발생한 화재로 시작된 카카오 서비스 오류는 아직 완전히 해소되지 않았다. 카카오 측은 데이터를 다른 곳에 복제해 두는 ‘이중화’ 조치 등  DR  시스템을 갖췄다고 했지만 사실상 무용지물이나 마찬가지였다. 판교데이터센터에 서버 3만 2000 대를 몰아놓은 것이 문제였다. 메인 시스템을 여러 데이터센터에 고르게 구축하는 완전 이중화 조치를 하지 않은 것이다. DR  시스템은 크게 4가지 종류로 나뉜다. 비상시에 실시간으로 대처할 수 있는 수준의  DR 은 ‘미러사이트’다. 주 업무 환경과 거의 동일한 환경의 시스템을 구축해놓은 것으로 비상시 복구목표시간( RTO )이 몇분 내로 짧다. ‘핫사이트’는 주 시스템과 맞먹는 설비를 마련해놓았지만 평소에는 대기 상태로 두는 경우다. 이 경우  RTO 는 4시간까지 늘어난다. ‘웜사이트’는 주 컴퓨터는 없지만 디스크 드라이브 등의 설비를 가지고 있는 백업 시스템이다. ‘콜드사이트’는 전산장비 없이 공간만 예비로 마련해둔 경우다. 특히 카카오처럼 대다수 국민이 쓰는 메신저라면 ‘미러사이트’ 수준의 강력한  DR  시스템을 구축했어야 한다는 지적이 나온다. 한 업계 관계자는 “카카오의 운영 규모를 고려하면 모든 서버가 다운되는 경우를 염두에 두고  DR 을 구축했어야 한다”면서도 “ SK   C&C 에 구축한 서버와 동일한 규모로 다른 데이터센터에 시스템을 마련해야 하는 만큼 비용은 2배로 늘어나기 때문에 현실적으로는 쉽지 않다”고 설명했다. 특히 카카오톡과 같은 메신저 서비스의