【Causal Inference①】인과추론의 목적과 RCT에 관하여

【Causal Inference①】인과추론의 목적과 RCT에 관하여


* 인과추론(Causal Inference)으로 뭘 할 수 있는데?


"A 아이스크림을 공중파 CF에 내보냈을때, 해당 아이스크림의 매상은 얼마나 올랐을까?"

"전 사원 대상 Python 연수 프로그램을 설치 했을때, 사원 들의 일의 능률은 얼마나 올랐을까?"

이와 같은 질문들은 비즈니스에서 일상적으로 흔히 나올 수 있는 질문들이다.

하지만 이에 대해 깊은 고찰 없이 단순하게 효과를 정의하고 평가함 으로써, 우리는 수많은 바이어스 를 만들어 내고 있다.

공중파 CF의 효과를 계산하기 위해 단순히 CF 전후의 매상의 차이를 계산해서, CF와 관계없이 시기적으로 날씨가 더워져서 오른 맥주의 매상까지도 CF의 효과로써 평가해버린다.

또한 Python 연수를 신청한 사람들은 그렇지 않은 사원들보다 원래부터 우수한 사람이 많을수 있다. 원래부터 일의 능률이 높은 연수자그룹과 비연수자 그룹의 능률을 단순 비교해서 원래의 차이까지도 python연수의 효과로 평가해버린다.

이처럼 인과추론의 목적를 철저하게 비즈니스적 관점에서 보자면 어떠한 시책의 정확한 효과측정 을 위한 이론 & 기술 분야라고 할 수 있다.



* Inference 의 신뢰성의 3단계


Level 1. 실험(Experimental) 레벨

  • RCT (Randomized Controlled Trial; 무작위화 비교 실험)

  • 3가지 기본요건

    (1). 비교 : Control GroupTreatment Group 의 비교를 통해 독립변수가 종속변수에 영향을 미쳤는지 확인하는 과정

    (2). 조작 : 시간적으로 독립변수가 먼저 발생하고 그 후에 뒤따라 종속변수가 발생함을 입증하기 위해, 임의로 독립변수를 의도적인 시기에 발생하도록하고 이에 뒤따른 종속변수의 변화를 측정하도록 시간적 순서를 조작하는 것 (인과성의 선후관계)

    (3). 통제 : 허위적 관계가 아닌 것을 입증하기 위해, 독립변수를 제외한 종속변수에 영향을 미칠 수 있는 여러 변수들이 종속변수에 영향을 미치지 못하도록 상황을 의도적으로 통제하는 것

Level 2. 준실험(Quasi Experimental) 레벨

  • Level 1의 실험설계는 인과관계를 명확히 구명할 수 있지만, 인위적 통제가 어렵거나 윤리적 문제등으로 인해 (특히 비즈니스의 경우 제한된 예산 등에 의해) 실제 활용이 매우 어렵다. 이에 따라 비록 실험 설계에는 미치지 못하지만, 그 대안적인 방법으로 활용되는 방법이다.

  • 대표적인 방법

    (1). 시계열 설계(time-series design) : 비교집단을 별도로 설정하기 곤란한 경우에 하나의 집단 을 선택해서, 독립변수 도입의 전후상태를 비교하는 방법이다. 외적요인에 대한 통제가 어렵기 때문에 (각 기간마다 외부의 영향이 다르다), 위험이 있을 수 있다. 이를 개선하기 위해서는 같은 조사를 여러 집단에서 되풀이하여 실시하여 같은 결과를 얻을 수 있는지 확인할 필요가 있다.

    (2). 비동일 통제집단 설계(nonequivalent control group design) : 비동일 통제집단 설계는 실험설계의 통제집단 전후비교와 유사하지만 비교집단을 무작위로 선정하지 않는다 는 차이가 있다. 비동일 통제집단 설계는 무작위배치 이외의 방법(매칭, 기존집단의 선정 등)으로 Control GroupTreatment Group을 선정한다.

    이외에도 변수조작법(IV) , 차의 차 분석(DID) , 경향스코어 매칭(PS) , 회귀불연속 디자인(RDD) 등이 있다.

Level 3. 관찰(Observation) 레벨

  • 독립변수를 조작할 수 없고, 연구대상을 무작위할 수 없는 경우 이다. 어느 한 시점에서 독립변수와 종속변수 모두를 측정해서 상관관계를 파악하는데에 그친다.

  • 선후관계가 파악되지 않았고, 무작위화를 통해 동일한 집단에서 비교하지 못했으므로 부적절한 해석을 하게 될 위험을 가지고 있다.

  • 확증편향 \(^{[*1]}\)(confirmation bias) 이나 사후해석편향 \(^{[*2]}\)(hindsight bias)에 영향을 받기 쉽다. 예를 들어, 시책 담당자가 좋은 결과만을 보고 싶다고 하면 집계의 방법을 유리하게 설정해서 유리한 결과가 나오도록 하는 것이 얼마든지 가능하므로 주의가 필요하다.

    • Level 3Level 1& Level 2를 한 후에 추가적으로 검토하는 용도.

    • 또한, 집계의 방법을 미리 정해놓는 것을 통해, 자의적으로 변경해서 입맛에 맞는 해석을 하지 않는 것이 중요하다.


####【여기서 기억해야 할 것】 Lv1 \(\rightarrow\) Lv2 \(\rightarrow\) Lv3 의 순서로 시책의 효과를 검토해가는 것이 중요하다!!


<span style="font-size: 85%;> \(^{[*1]}:\) 원하는 정보를 선택적으로 모으는 등의 가지고 있는 신념을 확인하려는 경향성.

<span style="font-size: 85%;> \(^{[*2]}:\) 어떤 사건이 발생한 후, 사전에 그런 일이 일어날 것으로 예상했었다는 식으로 문제를 처리하는 것. 실제로는 벌어진 사건에 대해 전혀 대비를 하지 못하고, 그 원인을 냉정하게 규명해야 함에도 불구하고 "충분히 예측했던 일"이라며 자기 확신에 빠지는 것.


* Potential Outcome Framework


  • 처치(Treatment) 혹은 개입(Intervention)이 이뤄졌는지 여부

    \(\begin{equation}Z_i= \left \{\begin{array}{l}1 (Treated) \\0 (Untreated)\end{array}\right.\end{equation}\)

  • 종속변수(DV; Dependent Variable) 혹은 목적변수(Criterion Variable) ; 개입을 받은 경우와 받지 않은 경우 두가지로 나타낼 수 있다.
    (실제로는 어느 한쪽만 관찰가능하지만)

    \(\begin{equation}Y_i= \left \{\begin{array}{l}Y_i^{(1)} (Z_i = 1) \\Y_i^{(0)} (Z_i = 0)\end{array}\right.\end{equation}\)

    \(\Rightarrow Y_i = Y_i^{(0)}(1- Z_i) + Y_i^{(1)}Z_i\)


  • 이와 같이, 샘플 \(i\) 에 대하여 개입을 받은 경우의 결과 \(Y^{(1)}\) 와 받지 않은 경우의 결과 \(Y^{(0)}\) 간의 차이가 개입의 진정한 처치효과(TE; Treatment Effect) 라고 가정하는 것을 Potential Outcome Framework 라고 한다.

    \(\bf \tau_{TE} = Y^{(1)}-Y^{(0)}\)


  • 모든 샘플 \(i\) 에 대해 각각의 처치효과를 구하는 것은 까다롭기 떄문에, 그룹간의 비교로써 평균처치효과(ATE; Average Treatment Effect) 를 다루는 경우도 많다.

    \(\bf \tau_{ATE}= E[Y^{(1)}]-E[Y^{(0)}]\)



* Level 1. 실험레벨 ; 인과추론의 기초, RCT


- RCT의 특징

  • 비즈니스의 관점에서는 AB테스트 라고 할 수 있다.

  • RCT (Randomized Controlled Trial; 무작위화 비교 실험)를 통해 Control GroupTreatment Group을 무작위하게 나눔으로써 두 그룹간의 동질성 을 기대할 수 있다.

  • 측정된 교란인자(confounding factors)\(^{[*1]}\)는 물론, 측정되지 않은 교란인자 에 대해서도 비교군과 대조군의 균형을 이룬다.
    (측정되지 않은 교란인자 까지 처리할 수 있는 실험디자인은 RCT와 완벽하게 설계된 조작변수법(IV), 분할시계열디자인(ITS) 밖에 존재하지 않는다.)

  • 그로 인해 모든 연구 디자인 중 가장 높은 내적타당성\(^{[*2]}\)을 기대할 수 있다.

  • 즉 RCT에서는 이론상, \(ATU = ATT = ATE\)을 기대할 수 있다.

    ( \(ATU\) (Average Treatment Effect on the Untreated) \(= E[Y^{(1)}|Z=0] - E[Y^{(0)}|Z=0]\) )

    ( \(ATT\) (Average Treatment Effect on the Treated) \(= E[Y^{(1)}|Z=1] - E[Y^{(0)}|Z=1]\) )

    ( \(\bf ATE\) (Average Treatment Effect) \(\bf = E[Y^{(1)}] - E[Y^{(0)}]\) )


[*] 위의 표에서 Control Group\(Y_i^{(1)}\)Treatment Group\(Y_i^{(0)}\)은 실제로 관찰 불가능한 반사실적 Potential Outcome 이다.


- RCT의 의의

  • 선택바이어스(Selection Bias) 의 제거

  • 조작변수 이외의 다른 변수들을 통제하지 못한 채 Control GroupTreatment Group 선택하게 되면, 그룹간의 동질성을 확보하지 못하여 교란변수(confounding factor) 에 의해 효과가 왜곡 될 수있다. 이러한 것을 선택 바이어스 라고 한다.

  • RCT는 완전 무작위로 처치그룹을 선택하기 때문에 선택 바이어스 에서 자유로워질 수 있다.


- RCT의 약점

(1). 비용(예산, 시간 등)이 많이 든다.

(2). 외적타당성(일반화 가능성)\(^{[*3]}\)

  • RCT에서는 비용의 문제로 인해 외부조건을 통제하게 되고 그로인해 외적타당성은 낮아질 수 있다.

(3). noncompliance 문제

  • RCT에서 무작위로 그룹을 배분해도 거기에 따르지 않는 사람이 생겨서 나타나는 문제

(4). (특히 기업의 AB테스트에서) 다른 RCT를 같은 대상자에 겹쳐서 실행하게 될 경우, 그에 따른 바이어스가 생길 수 있다.

  • 통계적으로 처리하기가 상당히 복잡해진다.



<span style="font-size: 85%;> \(^{[*1]}:\) '원인'과 '결과' 양쪽 모두에게 공통의 원인이 되는 요인. Graphical Model에서 공통부모, 분기로 표현되는 부분. 내생성(Endogeneity)으로도 표현한다.

<span style="font-size: 85%;> \(^{[*2]}:\) 다른 외생변수들이 종속변수에 영향을 주지 않고 진정한 독립변수 의 효과인가의 타당성.

<span style="font-size: 85%;> \(^{[*3]}:\) 내적타당성을 높이기 위해 실험조건을 엄격히 통제한다면 일반화 가능성이 낮아질 수 있다. 얼마나 일반적 현실에 확장 가능한지의 타당성.


* Reference

해당 포스트는 유튜브 채널「データの科学のメソドロジー」의 山田典一님의 강의를 틀로 내용을 정리 & 추가 했음을 밝힙니다.

그 외 참조

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 (安井翔太)

RCTをめぐる3つの問題とその解法(山口一男)

実験(Experiment)と疑似実験(Quasi-experiment)に関する記事(津川友介)

http://blog.daum.net/sangrimza/15612241

https://m.blog.naver.com/PostView.nhn?blogId=lucifer246&logNo=201407281&proxyReferer=https:%2F%2Fwww.google.com%2F

Comments