4. AWS 관찰가능성(Observability)의 이해

요즘 채용시장의 트랜드는 옵저빌리티 입니다. 다시 말하면 옵저버 빌리티를 이용한 자산 및 보안을 관리하고자 하고 그 에 맞는 인재를 찾고 있습니다.

이것은 IT 인프라 확장에 따른 보안 대상 자산 범위 및 분류체계가 변화하고 있기 때문입니다.

시스템 모니터링의 새로운 접근 방식으로 옵저버빌리티가 부상하고 있습니다.

옵저버빌리티란 외부 출력만을 이용하여 내부 상태를 측정할 수 있는 기능을 가리킵니다.

기존 모니터링이 ‘무엇이 언제 일어났는가’에 초점을 둔다면, 옵저버빌리티는 여기서 한 발짝 더 나아가 ‘왜 어떻게 일어났는가’까지 파악할 수 있도록 도와줍니다.

일반적으로 관찰 가능성은 외부 출력의 정보만을 기반으로 복잡한 시스템의 내부 상태 또는 조건을 이해할 수 있는 정도를 나타냅니다. 시스템을 보다 쉽게 관찰할 수 있게 되면 추가 테스트나 코딩 없이도 식별된 성능 문제에서 근본 원인을 더 빠르고 정확하게 발견할 수 있습니다.

IT 및 클라우드 컴퓨팅에서 관찰 가능성은 분산 애플리케이션에서 실행되는 하드웨어 및 네트워크와 함께 지속적으로 얻는 성능 데이터를 집계, 상관관계 파악, 분석하기 위한 소프트웨어 도구 및 관행을 나타냅니다. 이를 통해 애플리케이션과 네트워크를 더 잘 모니터링하고 문제를 해결하고 디버그할 수 있습니다.

관찰 가능성은 특히 IT 시스템, 워크로드, 네트워크 및 인프라의 관찰 가능성을 의미하는 경우가 많지만 데이터 관찰 가능성은 또 다른 형태의 기술입니다.

많은 클라우드 환경을 담당하든 단일 애플리케이션을 담당하든 상관없이 모든 팀은 운영 상태를 쉽게 이해할 수 있어야 합니다. 팀에서는 유용한 통찰력을 얻기 위해 운영 결과를 기반으로 한 측정항목을 사용하기를 원할 것입니다. 이러한 지표를 사용하여 정보에 근거한 결정을 내리고 8가지 M&G 가이드 기능 각각에 대한 주요 입력으로 사용해야 합니다. AWS를 사용하면 작업 로그를 더 쉽게 수집하고 분석할 수 있으므로 지표를 생성하고, 작업 상태를 파악하고, 시간이 지남에 따라 작업에서 통찰력을 얻을 수 있습니다. 이러한 활동은 분석을 위한 운영 데이터의 소비, 저장, 분석 및 프레젠테이션을 위한 관찰 솔루션을 제공할 때 중앙에서 지원됩니다.

이벤트 대응 에 설명된 대로 계획된 운영 이벤트(예: 판매 판촉, 배포, 오류 테스트)와 계획되지 않은 이벤트(예: 활용도 급증, 구성 요소 오류)를 모두 예상해야 합니다. 시뮬레이션, 사용자 지정 런북, 플레이북을 사용하고 반복하여 경고에 대응할 때 일관된 결과를 제공하세요. 정의된 경고는 대응 및 에스컬레이션을 담당하는 역할이나 팀이 소유해야 합니다. 또한 시스템 구성 요소가 비즈니스에 미치는 영향을 파악하고 이를 사용하여 필요할 때 노력을 집중할 수 있습니다. 이벤트가 발생한 후 근본 원인 분석(RCA)을 수행한 다음 장애 재발을 방지하거나 해결 방법을 문서화하는 데 필요한 변경 사항과 제어 기능을 도입합니다.

많은 기업에서 기술 팀은 통합 시스템을 공유하여 자신이 관리하는 서비스나 인프라를 모니터링합니다. 공유 관찰 시스템은 전체 조직의 모든 성능 데이터를 통합하여 팀이 서비스와 구성 요소 간의 연결을 시각화하고, 실시간 데이터와 협업하고, 성능 또는 보안 문제의 원인을 신속하게 식별할 수 있도록 합니다.

관찰 가능성 시스템은 애플리케이션과 AWS 로깅 및 서비스 지표 기능에서 직접 데이터를 수집합니다. AWS는 모니터링 및 관찰 가능성 상태를 향상하는 데 도움이 되는 여러 서비스를 제공합니다. 이러한 서비스에는 AWS CloudTrail이 포함됩니다., 아마존 클라우드워치, Prometheus용 Amazon 관리 서비스, VPC 흐름 로그 , AWS X-Ray 추적, Amazon EventBridge 이벤트 , Amazon Managed Grafana, Elastic Load Balancing및 AWS 네트워크 방화벽.

AWS 관찰 가능성 도구를 통해 수집하는 내용

스크린샷 2023-10-20 오후 5.09.24.png