【Uplift Modeling】도입의 배경에 대해 생각해보자

해당 포스트는 Towards data science 에 게재된 블로그 'Uplift Modeling: A Quick Introduction'의 내용을 정리 & 추가한 내용임을 밝힙니다.


* Introduction


"누가 미래에 구매를 할 것 같은가 ?"

고전적인 경향성 모델(propensity model) 이 하는 것은 원래 구매로 이어지려고 한 고객을 머신러닝을 이용해 발견해낼 뿐이다. 이러한 모델은 원래 구매를 하려고 했었던 고객과 캠페인에 의해 구매설득이 필요한 고객을 구분하지 않는다.



이번엔 새롭게 캠페인(treatment) 을 통한 프로모션을 한다고 생각해보자. 과연 누구를 타겟으로 해야할까.


"어떠한 고객이 캠페인을 통한 매상이 높을 것 인가?"

위와 같은 질문을 기준으로 기댓값이 높은 사람을 타겟으로 할 수 있을 것이다. 이것을 예측해서 타겟팅을 하는 모델을 Outcome model 이라고 할 수있다.

즉, 타겟변수를 \(Outcome = P(buy|treatment)\) 로 설정한 것이다.


"캠페인이 고객에게 실제 우리회사 제품의 구매를 유발했나 ?"
" 이미 사려고 했던 사람에게 캠페인을 하는 낭비 를 하지는 않았나?"
"캠페인이 누군가의 구매를 더욱 악화 시키지는 않았나?"

그러나 Uplift modeling 은 위와 같은 더욱 중요한 질문에 답하고자 한다.

이것은 타겟변수를 \(Lift = P(buy|treatment) - P(buy|no treatment)\)로 둔 것 과 같다.



위의 그림 (Yi and Frost 2018a) 과 같이 고객이 캠페인의 대상이 되는지 여부와 그에 따른 고객의 행동에 따라 4가지 세그먼트로 고객의 타입을 분류할 수 있다.

  • 'persuadables' :
    마케팅 캠페인에 노출이 되면 구매를 하지만 노출되지 않으면 구매하지 않는 그룹
    \(Lift = P(buy|treatment) - P(buy|no treatment) = 1\)

  • 'sure things' :
    캠페인과 관계없이 어짜피 구매할 예정인 그룹
    \(Lift = P(buy|treatment) - P(buy|no treatment) = 0\)

  • 'lost causes' :
    캠페인과 관계없이 어짜피 구매하지 않을 그룹
    \(Lift = P(buy|treatment) - P(buy|no treatment) = 0\)

  • 'sleeping dogs' :
    캠페인에 노출되지 않으면 구매하지만 오히려 노출될 경우 구매를 하지 않게되는 그룹
    ('이런 광고에 돈을 쓰는 회사의 제품을 구매하고 싶지 않아!' 혹은 '나의 프라이버시가 이용되는 곳에 돈을 쓰고 싶지 않아!' 등과 같은 이유)
    \(Lift = P(buy|treatment) - P(buy|no treatment) = -1\)


모든 고객들에 대해 소속된 세그먼트를 미리 알 수 있는 이상적인 세계가 존재한다면, 그에 따라 'Persuadables' 세그먼트의 고객들만 타겟에 넣고 'Sleeping dogs' 세그먼트는 절대 고객은 넣지 않을 것이다. 그러나 현실에서는 각 고객이 어느 세그먼트의 고객인지 아는 것은 불가능하다. 그 대신, 통계의 힘과 머신러닝으로 해당고객과 "비슷한 고객"이 평균적으로 어느 세그먼트에 속해 있는지 는 알 수 있을 것이다. 이것이 Uplift modeling이 우리에게 알려주는 것이다.

모든 개인은 -1 부터 1 사이의 lift값을 갖게 되고 우리는 이 값을 통해 타겟을 결정할 것이다.
만약 모델이 정확하다면, 높은 lift값을 가진 고객에게 더 높은 캠페인 효과를 기대할 수 있을 것이고 낮은 lift값의 고객에게는 낮은 캠페인 효과가 나타날 것이다.



* Uplift modeling의 접근방법


Uplift modeling은 특정고객에게 캠페인을 제공하는것이 이득인지 아닌지를 결정하는 task를 위해 만들어졌고, 이것은 어떤 고객이 어떤 세그먼트에 속하는지 결정하는 모델을 만드는 것 이며, 결과적으로 마케팅 수단이 고객의 구매로 이어지는 확률을 결정하는 것을 돕는 모델링 이다.

이러한 Uplift modeling은 여러가지 접근 방법으로 연구되어오고 있다.

다른 포스팅에서 이러한 다양한 접근방법에 대해 자세히 다루게 될 것이다.

Comments