올리브영 테크블로그 포스팅 DASH 2024,올리브영은 어떻게 Datadog으로 비즈니스를 모니터링하는가?
Tech

DASH 2024,올리브영은 어떻게 Datadog으로 비즈니스를 모니터링하는가?

CJ Olive Young’s Journey to Bridge the Gap Between Business Operations and Infrastructure

2024.08.05

안녕하세요. 올리브영 플랫폼엔지니어링팀 리더 무스타파🌙입니다.

DASH 2024

Datadog에서는 매년 새롭게 런칭되는 서비스와 다양한 성공 사례와 경험을 공유하기 위해서 뉴욕에서 DASH라는 컨퍼런스를 개최합니다. 이번 DASH 2024에는 Breakout Speaker의 자격으로 올리브영의 성공 사례를 발표할 기회를 가졌습니다. 발표는 무려 영어로 진행되었으며, 다양한 국적의 개발자, SRE 분들이 청중으로 참여해주셨습니다. DASH에서 최초로 한국의 사례가 발표된 것이라 매우 영광스러웠습니다.

이번 발표는 우리의 든든한 팀 리더인 Minju Shin(aka. 밍구리)이 진행해주셨습니다. 발표를 위한 준비 등의 과정은 뉴욕 DASH 2024에서 전파한 올리브영의 Datadog 활용 사례를 참고하세요.

이 포스팅은 DASH 2024에서 발표된 내용을 현장에 참석하지 못하신 분들을 위해 정리했습니다. 발표 영상은 유튜브 링크에서 지금 바로 시청 가능합니다. (발표는 영어로 진행되었음을 다시 한번 강조드리니 참고해주세요.)

올리브영과 데이터독(Datadog)


slide1
이미 올리브영 테크 블로그를 꾸준히 읽어주시는 많은 분들께서는 이미 알고 계시겠지만, 올리브영은 Datadog을 진심으로 사용하고 있습니다. 우리 올리브영이 Datadog을 도입하게 된 과정과 어떤 변화가 있었는지 설명 드리겠습니다.


slide6
올리브영의 온라인몰은 2017년에 런칭되었습니다. 올리브영의 창립이 1999년이고 온라인 비즈니스가 크게 성장하는 시기가 2000년대 초반이었다는 것을 생각하면 상당히 늦게 온라인몰의 역사가 시작되었습니다.

당연히 처음에는 모놀리식 구조로 단순하게 구성되어 있었습니다. 누구나 생각할 수 있는 구조입니다. 코로나 19 팬데믹 기간에 온라인 비즈니스는 급격하게 성장했습니다. 오프라인의 매장이 셧다운되거나, 외출이 불편해지면서 많은 거래가 온라인에서 이루어지기 시작했습니다. 이때부터 거의 매년 40%에 가까운 놀라운 성장률을 보여주었습니다.


slide7
매년 40%에 가까운 높은 성장을 하는 동안 인프라의 성장은 그에 따라가지 못했습니다. 이 화면은 아마도 올리브영의 오래된 고객분들께는 익숙한 화면입니다. 1만 5천명의 고객들이 대기하고 있고, 대기시간은 150분이나 걸립니다. 우리 온라인몰에서 방문하신 고객님들에게 저희는 무한의 대기열을 보여드리는 사태가 발생했습니다.


slide8
특히 올리브영은 1년에 4번, 올영세일이 있습니다. 올영세일은 올리브영에서 가장 큰 프로모션 행사입니다. 거의 10배에 가까운 트래픽이 유입됩니다. 평시에 준비된 인프라의 자원으로는 10배의 트래픽을 버틸 수 없었습니다. 그렇다고 항상 10배의 인프라를 준비해두는 것도 낭비입니다. 그래서, 우리는 언제든지 증설이 가능한 유연한 인프라를 구축할 필요가 있었습니다.


slide9
이런 트래픽을 소화하기 위해서 올리브영은 클라우드로 이전과 MSA(Microservice Architecture)를 도입하기로 결정하게 됩니다. 당연한 선택입니다. 클라우드와 MSA로 시스템을 전환하기 위해서는 효과적인 모니터링 도구는 필수적으로 필요합니다.


slide10
올리브영에서 생각하는 모니터링 툴에 대해서 몇 가지 조건이 있었습니다.

  • 인프라와 애플리케이션, 비즈니스를 모두 통합하여 관찰할 수 있어야 합니다.
  • 각 컴포넌트의 관계가 유기적으로 표현되어야 합니다. 그리고, 문제가 발생한 컴포넌트를 쉽고 빠르게 찾아낼 수 있어야 합니다.
  • 올리브영의 핵심 사업에 집중하기 위해서 엔지니어들의 관리가 불필요한 SaaS(Software as a Service) 이어야 합니다.
  • 실시간으로 데이터가 시각화될 수 있는 도구가 필요합니다.


slide11
Datadog은 올리브영에서 필요한 모든 조건을 맞춘 최적의 솔루션이라고 생각하였습니다.

올리브영이 보유한 대부분의 인프라를 지원하고, 다양한 컴포넌트가 유기적으로 결합되어 전체 인프라와 애플리케이션을 모니터링할 수 있었습니다. 당연히 Full Managed Service였고, 시각화 도구도 충분히 좋았습니다.


slide12
그럼, 올리브영은 Datadog을 어떻게 이용할까요?

물론 처음에는 당연히 우리도 APM(Application Performance Monitoring, 애플리케이션 성능 모니터링)에 집중해서 사용하기 시작했습니다. Datadog이 원래 가장 잘 지원하는 것이 APM이고 이것을 목적으로 도입하게 되니까요. APM은 개발자나 SRE에게 매우 유용했고, 첫 번째 고객 그룹은 그들이었습니다. Datadog에서 가장 중요하게 바라보는 지표는 RPS(Request per Second)나 각종 서버의 CPU 사용률 같은 성능 지표였습니다. 장애가 발생하면 가장 명확하게 확인이 가능한 지표였고, 대부분 Datadog을 이런 용도로 사용하실 겁니다.


slide13
이건 우리의 첫 번째 대시보드입니다. 사실 다른 대부분의 회사와 큰 차이가 없습니다.

상단에는 성능에 영향을 주는 가장 지표인 유입자 수(RUM, Real User Monitoring)와 RPS(Request per Second)가 표시되고, 하단에는 각 서버의 성능을 표시합니다. 애플리케이션의 에러 발생 상황이나 각종 성능 지표를 APM에서 가져옵니다. SRE에서는 매우 만족스럽게 사용할 수 있는 대시보드입니다.


slide14
어느날, 로그를 모니터링하던 도중 로그에 남아 있는 결제 관련 정보를 대시보드에 표시할 수 있다는 것을 발견했습니다. 어려운 기능은 아니었습니다. 어차피 로그는 디버깅이나 고객 지원을 위해서 남기고 있었습니다. Datadog의 로그 관리 기능은 이런 로그를 시각화해주는 기능도 존재했었고요. 그냥 그 그래프를 대시보드에 추가만 하면 되는 정도였습니다.

하지만, 이런 정보를 대시보드에 붙여 넣는 것은 하나의 혁신이었으며, 올리브영이 Datadog을 이용해서 비즈니스와 인프라를 결합하는 새로운 방법을 발견하게 되었습니다. 이때부터 많은 것이 변화해나가기 시작했습니다.


slide15
이 메시지는 약 2년 전에 SRE팀에서 전달된 내용입니다.

기존에 잘 사용하고 있던, 조금 전에 공유드렸던 대시보드에 현재 가장 많이 팔리는 상품의 숫자를 표시할 수 있다는 것입니다. 온라인 커머스에서 특정 상품이 급격히 판매가 이루어지고 이것으로 인해서 장애가 여러 번 나는 것을 경험해본 개발팀과 SRE에게 이 부분은 매우 중요합니다. 하지만, 지금까지 SRE는 인프라의 성능에 대한 변화만 알고 있었지, 왜 이런 성능 변화가 발생하는지 관찰하기 어려웠습니다. 이제는 이것을 한번에 볼 수 있는 방법이 생긴 것이죠.


slide16
이런 통합적인 뷰를 가질 수 있게 되면서, 우리는 여러가지 툴을 하나의 통합된 관점으로 모니터링할 수 있는 기회를 가졌습니다.

사용자의 유입이 얼마인지 확인하기 위해서 많이 사용되는 Google Analytics와 같은 도구와 국내에서 가장 대중적으로 사용되는 APM 도구인 Jennifer, 사업의 성과를 모니터링하기 위해서 사용되는 시각화 도구인 Tableau를 Datadog으로 통합하여 모니터링되기 시작했습니다.

물론 이런 각각의 툴이 더이상 사용되지 않는 것은 아닙니다. 하지만, 실시간 모니터링을 하는 관점에서는 이제 Datadog 하나만 보아도 현재의 상황을 모두 확인할 수 있습니다.

모니터링 도구가 하나로 통일되면서, 비즈니스의 의사결정을 내리는 방법이 변화하기 시작합니다.


slide17
올리브영은 정말 많은 대시보드를 가지고 있습니다. 지금도 약 30개가 넘는 대시보드가 운영되고 있고, 각 스쿼드별로 1개 이상의 대시보드가 있다고 보면 됩니다.

SRE는 당연히 시스템의 성능을 가장 중요시합니다. 결제를 담당하는 스쿼드는 결제의 완료 건수나 실패 건수가 중요합니다. SCM에서는 배송이 잘 이루어지는지 관리해야 합니다. 오늘드림을 운영하는 올리브영에서는 정말 중요합니다. 오프라인 매장에서 매출은 잘 나오고 있을까요? 올리브영은 O2O 환경에서 비즈니스를 수행하므로 오프라인 매장도 통합적으로 관리가 필요합니다.

이런 대시보드는 각 스쿼드의 필요성에 따라서 만들어진 것입니다. 어떠한 형식이 있는 것은 아닙니다. 자신의 비즈니스 도메인에 가장 알맞는 대시보드를 각자 보유하고 있습니다.


slide18
몇가지 샘플 대시보드를 보여드립니다. 숫자는 회사에서 중요한 정보라 숨김 처리가 되었습니다. 이 대시보드는 가장 기본적인 정보를 담고 있습니다.

커머스 회사에서 가장 중요한 것은 무엇일까요? 커머스 회사에서 가장 중요한 것은 유입과 상품의 판매이니다. 보통 가장 중요한 지표를 KPI(Key Performance Indicator)라고 부르고 집중적으로 관리합니다. 이 대시보드는 KPI에 관련한 내용을 표시하는 것을 목표로 합니다.

현재 몇명의 사용자가 접속해있고, 중요 시스템의 성능이 어떤지, 트래픽 상황은 어떤지 확인합니다. 매출은 너무나 중요하고 기본적인 지표입니다. 1분에 몇건의 결제가 이루어지고 있는지 알아야 합니다. 어떤 상품이 잘 팔리는지 알면 더욱 좋을 것 같습니다. 어떤 채널에서 트래픽이 유입이 들어올까요? 이런 지표들은 개발자와 PO, 마케터들 모두에게 공유되는 가장 중요한 지표입니다.

우리는 하루에도 몇번씩 방문하거나 또는 자신의 컴퓨터 모니터에 항상 표시되고 있습니다. 스마트폰에서 접속해서 보기도 합니다.


slide19
올리브영에서는 정말 다양한 형태의 대시보드를 구성합니다. 모든 스쿼드는 1개 이상의 대시보드를 가지고 있습니다. 대시보드는 각자의 필요에 의해서 만들어집니다.

어떤 대시보드는 그래프가 100개 가까운 경우도 있고, 어떤 경우는 5개도 안 되는 매우 간단한 것도 있습니다. 대시보드의 복잡성이나 뛰어난 완성도를 강조할 필요는 없습니다. 각자의 관점에서 가장 중요하다고 생각되는 대시보드를 구성하는게 중요합니다.


slide20
올리브영의 사무실 벽에도 TV를 설치하고 언제든지 모니터링이 가능하도록 합니다. 현재 우리의 비즈니스 상태가 어떤지 궁금하다면, 바로 고개만 돌리면 바로 볼 수 있습니다.

물론, 과거에도 이런 것을 표시하는 시스템은 존재했지만, Datadog을 도입하고 더 많은 정보를 더 자유롭게 표시할 수 있었습니다. 더 자주 볼 수 있으면 더 나은 정보를 대시보드에 표시하게 됩니다.


slide21
좀 더 재미있는 이야기를 들려드리겠습니다.

지금 올리브영 온라인몰에서 어떤 일이 벌어지고 있을까요? 정말 있었던 일입니다. 얼마 전이었습니다.


slide22
아침에 출근을 준비하는 SRE 구성원들에게 다양한 시스템 알람들이 수신되기 시작합니다. RPS(Request per Second)가 갑자기 전일 대비 치솟고, DB CPU도 위험 단계로 넘어갑니다. 서비스의 에러율도 증가하고, 응답 속도도 급격하게 떨어집니다.

분명 어떤 사고가 있는게 분명합니다. 외부의 공격일 수도 있고, 내부의 인프라에 문제가 발생했을 가능성도 있습니다. 아니면, 말 그대로 고객의 접속이 늘어났었을 수도 있습니다.


slide23
Incident일까요? SRE팀에서는 순간 긴장 상태로 들어갔습니다. 아직 출근도 못한 상태인데, 장애가 발생한 것이라면 정말 암담할 것 같습니다. 이제 무엇을 해야할까요? 우리에게는 그렇게 많은 시간이 없습니다. 빠르게 결정해야 합니다.

물론, 다행히도 시스템은 자동으로 확장되어 일단 한 고비는 넘겼습니다. 하지만, 이슈가 무엇인지는 아직 찾지 못했습니다.


slide24
이런 상황에 대해서 일단 사내 공유는 당연히 이루어지기 시작하지만, 아무도 SRE에게 어떤 상황인지 알려주지 않습니다. 사실 아직 버스나 지하철에서 출근 중인 분들이 많으니 당연할 수도 있습니다. 어떻게 해야할까요?


slide25
SRE 파트에서 관리하는 대시보드에는 많이 팔린 상품에 대한 지표를 표시하는 그래프가 있습니다. 특정 상품이 갑자기 엄청난 속도로 팔리고 있고, 이것이 시스템의 부하를 만들고 있다고 판단할 수 있었습니다.

사실 과거에도 이런 경우가 여러 번 있었기 때문에 앞으로 약 5분 이내에 모든 트래픽이 안정되고 시스템도 정상화될 것을 예측할 수 있습니다.


slide26
그날 발생한 아이템은 바로 이것입니다. PLAVE 아이돌 그룹의 포토카드가 포함된 상품이고, 이 상품의 판매가 순간적으로 매우 급증한 사례입니다. 우리 SRE와 개발자들은 K-POP 아이돌의 전문가가 되어 가고 있습니다.


slide27
이 대시보드는 실제로 SRE가 가장 중점적으로 관리하는 대시보드입니다. 이전에 만들어진 서비스 모니터링 대시보드와 가장 큰 차이점은 시스템 성능 이외에 사용자의 유입량과 상품의 판매와 같은 내용이 포함되어 있다는 것입니다. 시스템의 성능만 보았을 경우 알 수 없는 사업 지표를 포함시키면서 우리의 시스템이 어떻게 운영되고 있는지 더 정확하게 이해할 수 있습니다.


slide28
대시보드와 관점을 공유하는 것은 중요합니다. 잘 만들어진 대시보드를 개발자와 SRE 뿐만 아니라 PO(Product Owner)를 포함한 비즈니스 전반에 관련한 모두가 공유하는 것이 좋습니다. 어디에서 트래픽이 생성되고, 어떤 상품에 관심 있는지, 어떤 상품이 잘 팔리는지 모두가 함께 공유하는 것이 좋습니다.


slide29
Datadog은 실시간으로 모든 지표를 보여줍니다. 우리는 이 실시간이라는 부분을 매우 중요하게 생각합니다. 보통의 Data warehouse는 데이터를 수집하고 처리하는 과정을 거치면서 전일자 데이터를 보여주는 경우가 많습니다.

하지만, 마케터나 엔지니어들은 현재의 상황을 즉각적으로 분석하는 것이 중요합니다. 특히 온라인 커머스에서 마케팅과 판매의 관점에서 어떤 상품이 주목을 받고 판매가 되고 있는지를 관찰하는 것은 정말 중요합니다. 물론, 이런 역할을 잘 수행하는 Google Analytics나 Braze와 같은 제품이 이미 있습니다. 올리브영에서도 당연히 활용하고 있지요. 이런 제품은 마케팅의 효율을 확인하는데는 좋지만, 시스템의 현재 상황을 연결해서 바라보는데는 한계가 있습니다.


slide30
비즈니스의 가시성과 신뢰성을 높이는 것은 성공적인 사업 운영에 필수적입니다. Datadog은 이런 부분에서 정말 중요한 역할을 수행합니다. 우리의 목표는 모든 사람이 대시보드를 이용하여 비즈니스를 모니터링하는데 적극적으로 참여하고 관심을 가지는 문화를 구축하는 것입니다.


slide31
이런 문화를 만들어내기 위해서 아래의 내용 활동이 중요하다고 생각합니다.

  • 누가 대시보드를 만들까요?
  • 어떤 내용이 표시되어야 할까요?
  • 대시보드를 사용자는 누구일까요?


slide32
누가 대시보드를 만들까요?

사실 중요한 문제입니다. 만드는 사람이 없으면 대시보드 자체가 존재하지 않을테니까요. 우리가 생각하는 방법은 필요한 사람이 만든다는 것입니다. 필요한 사람이 만든다는 것은 그 필요의 관점이 가장 잘 반영될 수 있는 대시보드가 구성될 수 있다는 것입니다. 직접 관련된 사용자가 아닌 다른 사람이 제작한 대시보드는 필요한 정보가 부족하거나 구성이 미흡하여 사용되지 않을 가능성이 높습니다. 이런 경우 해당 대시보드의 사용율은 급격하게 떨어지게 됩니다.

만들어진 대시보드는 최대한 많이 공유하는게 좋습니다. Datadog은 이런 부분에서 정말 최고의 툴이라고 할 수 있습니다. 개발자가 아니라도 SRE가 아니라도 누구라도 쉽게 대시보드를 구성할 수 있습니다.


slide33
대시보드를 만드는 것은 정말 간단합니다.

Log Explorer에서 대시보드로 그래프를 Export해서 만들 수도 있습니다. 주로 처음 개발자들이 대시보드에 필요한 지표를 추가할때 많이 사용하는 방식입니다. 또 다른 방법은 기존에 대시보드에 있는 그래프를 복사하는 것입니다. 사실 이 방법이 더 많이 사용됩니다. 다른 이들이 만들어 놓은 좋은 지표가 있다면 그것을 내가 가지고 있는 관점과 결합하는 과정입니다. 이 과정을 통해서 자신에게 알맞는 대시보드가 탄생합니다.


slide34
어떤 내용이 표시되어야 할까요?

대시보드는 비즈니스의 핵심 상태를 표시할 수 있도록 구성해야 합니다. 보통 가장 중요한 지표는 KPI로 표현됩니다. KPI는 회사 또는 조직에서 가장 중요하게 관리되지만, 반대로 너무 거시적으로 표현되는 경향이 있습니다. 온라인 커머스에는 사용자의 유입과 상품의 판매로 이루어지는 매출이 가장 중요한 KPI 입니다. 이것으로 모든 부서의 구성원을 만족시킬 수 있을까요? 사실 각 부서에서는 각자에게 맞는 목표가 따로 있습니다.

예를 들어서, 마케팅 팀에서는 집행된 광고에 대한 트래픽의 유입이 중요합니다. SRE는 당연히 시스템의 성능이 중요하겠죠. 개발팀은 오류가 얼마나 적게 발생하고, 적정한 수준의 성능을 나타내는지 보고 싶습니다. 결제를 담당하는 팀에서는 결제 성공율이 중요합니다. 매출에는 문제가 없지만, 결제 실패와 같은 고객 경험에서 문제가 발생하고 있다면 장기적으로 지속 가능한 성과 향상을 기대하기 어렵습니다.

따라서, 각 부서에 맞는 지표를 발굴하고 이것을 대시보드에 표현하는게 중요합니다.


slide35
KPI로 대표되는 사용자의 트래픽과 결제는 모든 지표에 앞서서 가장 중요합니다. 이 지표는 사실상 모든 구성원들이 함께 공유할 수 있도록 해야합니다. 올리브영에서는 많은 대시보드에서 RUM(Real User Monitoring)으로 생성되는 사용자의 유입과 결제 상태가 함께 포함되어 있습니다.

하지만, 각 비즈니스 대시보드에서는 각자에게 알맞는 지표를 표시합니다. 마케터는 유입을 관찰 할 수 있는 지표를 구성하고, SCM에서는 배송(특히, 우리의 경우는 오늘드림)의 상태를 관찰합니다. SRE는 각종 시스템의 현황을 볼 수 있도록 지표를 구성합니다.


slide36
이런 지표를 구성하는데 우리는 Log 파일을 이용합니다. Datadog의 Log Parser는 정말 유용합니다. 보통 개발자들은 애플리케이션을 개발하면서 로그를 남깁니다. 예를 들어서, 결제가 성공했다면 어떤 상품의 결제가 성공했는지 로그를 남기겠죠. 이런 로그를 단순하게 카운트만해도 1분에 몇개의 상품이 팔렸는지 알 수 있습니다. 로그 파서를 이용하면 별도의 작업을 수행하지 않고도 다양한 필드로 분석해서 Metric으로 전환하고 그래프로 표현이 가능합니다.

좋은 로그는 좋은 지표를 만들 수 있습니다. 꼭 기억해두세요.


slide37
대시보드를 사용자는 누구일까요?

만들어진 대시보드를 사용하는 사람이 없다면 아무런 의미가 없을겁니다. 많은 사용자들이 대시보드를 사용할 수 있도록 유용한 정보를 제공하는 것이 중요합니다.

아무리 정교하게 만들어진 대시보드라도 사용자가 없다면 그 가치는 빛을 잃게 됩니다. 실시간 데이터를 활용한 대시보드는 매일 반복되는 정적인 보고서와는 달리, 최신 정보를 한눈에 파악하고 빠른 의사 결정을 지원해 많은 이들이 사용하길 원합니다. 그만큼 조직 구성원들의 관심과 참여를 높이고, 데이터 기반의 의사 결정 문화를 조성하는 데 크게 기여합니다.

좋은 데이터가 있다면(좋은 로그가 있다면) 당연히 좋은 사용자 그룹이 만들어집니다. 더 많은 사람들이 실시간으로 수집되는 동일한 숫자를 공유한다면, 통일된 방향으로 비즈니스를 이끌어 나갈 수 있습니다.

우리는 대시보드를 모두가 함께 사용하는 것을 정말 권장 드립니다. C-레벨 임원을 포함해서 개발자, SRE, 마케터, PO(Product Owner)가 모두 함께 사용할때 정말 새로운 문화를 만들 수 있습니다.


slide38
이 이미지는 올영세일이 진행될 때 사내 메시지 채널에서 소통된 내용입니다.

C-레벨 본부장님께서 지금 상황에 대한 공유 요청을 하셨고, 개발팀 리더는 즉시 Datadog 대시보드의 그래프 하나를 캡처해서 공유합니다. 보고를 위해서 별도의 자료를 추출하거나 준비할 필요 없이 그냥 이 그래프를 공유하는 것으로 모든 것이 해결됩니다. 올리브영의 온라인몰에 관련된 대부분의 사람들이 Datadog에 접속하여 대시보드와 그래프를 공유하면서 업무를 진행합니다.


slide39
좋은 대시보드를 가지고 있다는 것은 우리의 사업에 대한 신뢰성을 높이는 준비가 되어 있다는 것입니다. 중요한 지표에 대해서 이상이 발생할 경우, 우리는 즉시 알람이 생성되어 전파됩니다. 알람이 발생되면 바로 비즈니스에 대한 영향에 대한 검토도 이루어질 수 있습니다. 단순하게 시스템이 셧다운 되었다고 알람을 전파하는 수준이 아니라, 비즈니스의 특정 영역에 오류가 있을 경우에도 Datadog으로 알람을 생성할 수 있습니다.

이 화면은 PG(Payment Gateway)에서 발생한 장애를 발견하고 슬랙에 관련 내용을 전파한 사례입니다. 사실 이 알람을 전파할 수 있게된 계기도 잘 만들어진 결제 비지니스 대시보드가 있었기 때문입니다.


slide40 올리브영 사업의 디지털로 전환하는 과정에서 Datadog은 중요한 역할을 수행하고 있습니다. 각자의 Insight를 실시간으로 공유하고 토론하면서 우리의 서비스를 개선하고 새로운 방향을 도출할 수 있도록 많은 도움을 받을 수 있었습니다.


우리 모두 함께해요.

Datadog은 APM으로도 충분히 좋은 도구입니다. 하지만, 이 훌륭한 도구를 좀 더 확장해서 대시보드를 구성하고, 구성된 대시보드를 서로 공유하면서 올리브영에서는 다함께 만들어가는 모니터링이라는 문화를 만들어 나가고 있습니다.

우리는 보통 모니터링이 개발자나 SRE의 업무라고 생각하는 경우가 많습니다. SRE에서는 자신의 시각으로 시스템이 안정적으로 운영되기를 원하고, 개발자는 오류가 없는지에 대해서 주로 관심을 가집니다.

하지만, 우리가 만든 애플리케이션에서 가장 중요한 것은 고객에게 충분히 효과적으로 동작하고, 조직의 비지니스 목표가 달성될 수 있도록 지원해야 합니다. 이런 관점에서 개발자와 SRE 뿐만 아니라 모두가 함께 볼 수 있는 대시보드는 매우 중요합니다.

DASHDatadog대시보드
올리브영 테크 블로그 작성 DASH 2024,올리브영은 어떻게 Datadog으로 비즈니스를 모니터링하는가?
🌙
무스타파 |
SRE(Site Reliability Engineer)
무엇이든 물어보세요. 무엇이든 가능합니다. 하지만, 결과는... (상상에 맡기겠습니다.🙏)