본문 바로가기
DAta 이론/데이터 분석 알아보기

[이론 정리] <Using Causal ML Instead of A/B Testing> 요약, 인과 머신러닝에 대해

by DAkimble 2025. 2. 18.

클릭 시 출처 이동-위키피디어 공용-

 

오늘날의 복잡한 비즈니스 환경에서는 단순한 연관관계 분석을 넘어서 “만약에?”라는 질문에 답할 필요가 있습니다.

즉 어떤 프로모션으로 판매량이 증가됐다 하더라도 "만약 프로모션을 실행하지 않았다면?" "이 프로모션이 다른 프로모션의 판매량을 빼았았을 뿐이라면?" 같은 질문을 할 수 있다는 말이죠.

 

기존 A/B 테스트는 실험군과 대조군을 나눠 효과를 측정하지만, 실제 현장은 여러 마케팅이 동시에 진행되고 다양한 요인이 얽혀 있어 통제하기 어렵습니다. 인과 머신러닝은 이런 상황에서 마치 영화의 한 장면처럼 “평행우주”(parallel universes)를 가상으로 구현해, 예를 들어 할인 혜택을 준 경우와 주지 않은 경우를 비교할 수 있게 해줍니다.

이를 통해 데이터 전문가들은 실제 환경의 복잡함 속에서도 인과 관계를 보다 명확하게 파악할 수 있습니다.


1. 인과 추론과 인과 머신러닝이란?

 

기온이 오르면 빙과류 판매량이 증가합니다. 그리고 흥미롭게도 범죄율도 증가한다고 하네요. 전문가들은 남성호르몬과 낮 시간의 증가를 원인으로 꼽습니다. 하지만 그렇다고 빙과류 판매량의 증가와 범죄율 증가를 인과관계로 엮으면 안되겠지요. 같은 기간 둘의 증가는 서로 '연관관계'일 뿐입니다. 클릭 시 출처 이동-위키피디아 공용-

 

인과 추론은 단순한 연관관계가 아니라, 특정 조치가 실제 결과에 어떠한 영향을 미쳤는지를 밝히는 학문입니다. 일전에 제가 쓴 이 글에서도 정리해둔 적도 있지요. 

 

인과 머신러닝은 여기에 머신러닝 기법을 접목해 다양한 시나리오에서 결과를 예측합니다.

예를 들어, 데이터의 공변량(Covariates, 처치 외에 결과에 영향을 미치는 요소들)로서 사용자 특성, 처치(treatment)인 마케팅 행위, 그리고 그 결과로 매출을 가상으로 도출하여, “만약 다른 선택을 했다면?”이라는 반사실적(counterfactual) 결과를 시뮬레이션할 수 있게 도와줍니다.


2. A/B 테스트와 인과 머신러닝의 비교

전통적인 A/B 테스트는 사용자들을 무작위로 두 그룹으로 나눠 실험을 진행합니다. 하지만 실제 조직에서는 다음과 같은 문제들이 발생합니다.

  • 제한된 통제: 여러 마케팅이 동시에 진행되면 대조군으로서 고객이 겹칠 수 있습니다.
  • 그룹 불균형: 대조군이 충분히 크지 않거나 처치 그룹과 유사한 성격이 아닐 수 있습니다.
  • 겹치는 효과: 테스트와 무관한 다른 팀이 같은 사용자에게 각각의 마케팅 전략을 적용할 수 있습니다.

반면 인과 머신러닝은 기존 데이터에서 사용자 특성과 마케팅 조치, 그리고 결과 간의 관계를 모델링하여, 처치 변수만 바꾸어 가상 시나리오를 만들어 냅니다. 이를 통해 복잡한 상황에서도 보다 신뢰할 수 있는 효과 추정이 가능합니다.


3. 인과 머신러닝의 구체적인 예시

예를 들어, 할인 프로모션을 진행한다고 가정해 봅시다. 데이터는 크게 세 부분으로 구성됩니다.

  • 공변량: 사용자 정보 (예: 나이, 성 등 개인정보, 과거 구매 기록 등)
  • 처리: 실제 진행된 마케팅 조치 (예: 할인 제공 여부)
  • 결과: 프로모션 후 매출 또는 지출액

이 데이터를 이용해 머신러닝 모델(예: LightGBM)을 교차 검증 방식으로 학습시킵니다. 그 후, 모든 사용자에게 할인을 주지 않은 경우(가상 우주 A)와 모두에게 할인을 준 경우(가상 우주 B)의 두 시나리오를 생성합니다. 두 경우의 예측 결과 차이가 바로 평균 처리 효과(ATE, the average treatment effect)로, 할인 제공이 실제 매출에 미친 영향을 정량적으로 보여줍니다.

이를테면 코딩에서 다음과 같이 나타낼 수 있지요:

 

ate = (pred_ones - pred_zeros).mean()
예상치 중 처치한 결과(pred_ones)와 처치하지 않은 결과(pred_zeros)의 차이의 평균

결론: 데이터 분석가로서 인과 머신러닝을 활용하는 방법

데이터 분석가로서 인과 머신러닝을 익히면 “만약에?”라는 질문에 답할 수 있는 강력한 도구를 손에 넣는 셈입니다.

A/B 테스트가 현실에서 지키기 어려운 엄격한 조건과 많은 비용을 요구하는 반면, 인과 머신러닝은 복잡한 현실 환경에서도 다양한 시나리오를 유연하게 시뮬레이션할 수 있습니다. 이를 통해 마케팅 전략 수립, 자원 배분, 그리고 전반적인 비즈니스 의사결정을 더욱 정교하게 내릴 수 있습니다.

복잡한 데이터를 다루는 여러분에게 인과 머신러닝은 앞으로 꼭 필요한 기술이 될 것입니다.