1. 인과추론이란 무엇일까?
연관관계는 인과관계가 아니다.
...하지만 여기서 중요한 점은 연관관계는 때로 인과관계가 될 수도 있다...
35p
①인과추론의 개념
- 인과추론에 대해 알아보기 위해서는 우선 연관관계와 인과관계에 대해 알아야 한다.
연관관계: 두 개의 수치나 확률변수(random variable)가 같이 움직이는 것. 이는 변인 x가 증가하면 변인 y가 증가할 때(양의 상관관계) 뿐만이 아니라 감소한다고 해도 성립될 수 있다(음의 상관관계).
인과관계: 한 변수의 변화가 다른 변수의 변화를 일으키는 것.
즉 연관관계는 인과관계의 필요조건이지만 충분조건은 아니다.
두 변수 간에 상관성이 있어야 인과관계가 있겠지만, 변수 간에 아무리 강한 상관관계가 있다 하더라도 반드시 원인과 결과의 관계인 것은 아니다. - 우리는 흔히 연관관계를 인과관계인 것처럼 받아들여서 지나치게 신뢰하고는 하지만 이는 위험할 수 있다.
내가 두세번 먹었던 음식이 그 때 맛이 없었다는 이유로 다신 먹지 않는다면 잠재적인 미식의 기회를 놓칠 뿐이겠지만, 앞선 주가나 코인 가격의 패턴을 몇 번 보고 앞으로의 투자를 결정하는 것은 재산상에 큰 손해를 끼칠 수 있다.
이와 같은 연관관계에서 인과관계를 선별해 내기는 쉽지 않다.
그러한 작업을 '인과추론'이라고 하며 따라서 정의를 다음과 같이 내릴 수 있을 것이다.
인과추론: 연관관계로부터 인과관계를 추론하는 과학
②인과추론의 목적
- 인과추론의 제 1목적은 사건의 인과관계를 밝혀 원인에 개입(intervention)하는 것이다.
실무현장에서 앞선 예처럼, 유료 마케팅을 하는 것 혹은 안하는 것이 더 이익이 될지, 제품의 현재 가격과 변화한 가격 중 어떤 것이 더 많은 이윤을 올릴 수 있을지,
또는 우리 삶에서도 식단을 무엇으로 바꿔야 더 건강해질 수 있을지 등등 모든 결정에서 단순히 '경험상 이렇게 여러번 했을 때 이익이 되더라' 보다는 '더 이익이 되는 원인이 이것이더라'를 알고 집중하는 것이 더욱 과학적인 선택으로서 원하는 결과를 이뤄낼 수 있다. - 특히 AI 분야에서 인과추론은 머신러닝의 약점을 보완하는데 쓰일 수 있다.
머신러닝은 과거의 데이터를 바탕으로 미래의 '예측'은 잘하지만, 그 원인을 파악하는 데는 취약하다.
주어진 변수들을 바탕으로 추론하기 때문에, 이를테면 호텔이 성수기일 때 객실의 가격을 올리면 매출이 증대되는 데이터를 참고로 한다면 머신러닝은 '가격을 올리면 매출이 증대된다'라고 예측할 수 있다. 이는 '호텔이 성수기였다'라는 매출 증대의 결정적인 원인이 되는 변수를 고려하지 못한 것이다.
하지만 머신러닝의 기존 알고리즘들도 인과추론의 방식과 접목됐을 때 더욱 우수하고 과학적인 예측을 위해 이용될 수 있다.
2. 연관관계에서 인과관계 가려내기
'DAta 이론 > 데이터 분석 알아보기' 카테고리의 다른 글
[데이터 분석 알아보기] 1-2. 추천 시스템 어떻게 만들까 (0) | 2024.08.16 |
---|