소셜로그인 중단 안내

계정으로 로그인 기능이 2023년 11월 16일 중단되었습니다.

아이보스 계정이 사라지는 것은 절대 아니며, 계정의 이메일 주소를 이용해 로그인 하실 수 있습니다.

▶️ 자세한 공지사항 확인

(우뇌) 마케터의 시선으로 데이터 분석하기 - 상관관계 분석

2023.10.19 15:11

우뇌

조회수 4,033

댓글 10

프롤로그 보러가기 : 프롤로그

2편 보러가기 : 회귀분석


안녕하세요, 우뇌 입니다.


오늘은 지난 글에서 말씀드렸던 목차의 첫 번째, 상관관계 분석에 대해서 말씀드리고자 합니다.


툴은 GPT-4를 사용할 예정이고, raw data는 엑셀을 활용한 데이터를 사용할 것 입니다.


먼저, 상관관계 분석의 개념부터 시작하겠습니다.




1. 개념


일반적으로, 제가 컨트롤하는 브랜드의 경우 시작하자마자 제일 먼저 하는 분석이 바로 상관관계 분석 입니다.


기본적으로 이 브랜드는 어떤 추이/추세를 모두 지니고 있는가? 를 보기도 전에 합니다.


실제로 가장 가장 가장 가장 식이 단순하면서도 R 또는 Python 을 사용할 때도 대단히 쉬운 문법으로 구성되기 때문에 GPT-4가 등장하기 전에도 자주 사용했었습니다.


아마도, 제가 부방장으로 있는 퍼포먼스 마케팅 단톡방에 계신 분들은 가끔 제가 이 브랜드의 상황을 상관관계 분석표를 보고 유추해보시라는 퀴즈를 내는 걸 보셨을 겁니다.


그러면 상관관계 분석에 대해서 먼저 사전적 정의를 풀어보겠습니다.


“2개 변수가 선형관계가 있는(상수 비율에서 함께 변경됨을 의미) 범위를 표현하는 통계적 측도, 원인과 결과에 관한 표현 없이 간단한 관계를 설명하는 일반적인 도구.”


역시 정의에서도 나오네요, “원인과 결과에 관한 표현없이 간단한 관계만을 설명한다.” 고요.


지난 글에서 설명드렸죠? 상관분석과 인과관계 분석은 명백히 다른거라고!!


정의에서 조차 오해하지 말라고 콱 박아놨네요.


저 문장을 조금 이해하기 쉽게 풀어서 말씀드리면, 먼저 선형 관계라는 것도 확인을 해야 되겠죠?


선형관계라는건 1차원 공간에서의 직선을 의미합니다.


아, 이것도 어려우실 수 있으니까…..


X축과 Y축이 있는 것에서 직선 형태의 관계만을 선형적 관계라고 하는 겁니다.


“직선” 이요!


그러니까, 곡선 그래프가 나오는 경우는? “비선형적 관계” 라고 보시면 되는거죠!


사실 데이터 분석에서 선형적 관계가 나오는 경우가 그렇게 많지는 않습니다, 좀 고도로 하다보면요.


비선형적 관계까지 포함해서 보기 위해서는 “회귀분석” 을 하셔야 되는데, 이건 다음에…ㅋㅋㅋ


미리 예고 드리자면 회귀 분석은 다항회귀와 로지스틱 회귀를 알려드릴거에요!


다시 돌아와서, “직선 그래프가 나오는 지표간의 관계를 분석하는 법” 이 상관관계 분석이다.


쉽죠?


증가냐, 감소냐, 변화없냐


이 세 가지의 경우를 뜻하는 것입니다.


그닥 어렵지 않죠?


어쨌든 상관관계 분석의 식을 알려드릴까 하다가, 우리는 그게 필요가 없어요.


단지 상관관계 분석 값 (r) 을 구하기만 하고, 그 수치가 갖는 의미만 파악하면 됩니다.


r 값의 최대값은 1입니다. 즉, 1에 가까워질 수록 두 변수가 갖는 관계가 매우 깊다. 라는 것이죠.


뭐 당연한 이야기겠지만요.


구매건수와 매출액은 상관관계가 매우 높겠죠? 거의 막 0.9 이렇게 나옵니다.


이런 경우는 상관관계가 매우 높다! 라고 표현하고,


광고예산과 매출액의 상관관계가 예를 들어, 0.3이 나왔다?


상관관계가 매우 약하다. 라고 표현 합니다.


흔히 0.5 밑으로 나와도 상관관계가 약하다라고 표현합니다.


정리하자면


r 값이 0에 가까울 수록 상관관계가 없거나 약하다는 의미를 지닌다.

r값이 0.5 이상 또는 1에 가까울 수록 상관관계가 강하다는 의미를 지닌다.


이겁니다.


이해가 되셨을까요?


재미있게도 브랜드별로 r값은 전부다 다르게 나옵니다.


어떤 곳은 광고예산을 증액하는 것이 매출과 상당히 상관관계가 높다고 나오기도 하고, 어떤 곳은 매출과 상관관계가 높지 않지만 회원가입에는 높게 나오기도 하고, 뭐 그렇습니다.


그러므로 기본적으로 이 브랜드가 어느 상황이지? 라는 것을 알고 싶다면, 간단하게 바로 뽑아볼 수 있습니다.


이렇게 까지 이해하셨으면, 뭐, 상관분석은 다 끝난거에요!


그러면 이제 어떤 지표들을 활용해서 지켜봐야 할지 정하기만 하면 되겠군요.


2. 지표


이 부분은 솔직히 정말 소~~~~~올직히 마음대로 하시면 됩니다.


일반적으로 사용하시는 보고서에 있는 지표들을 활용하시면 좋습니다.


그냥 그게 다에요.


저는 주로 다음과 같은 지표들을 활용합니다.




네 뭐, 별다를거 없죠?


저기에 이제 제가 추가로 궁금하거나 이런 것들을 추가로 넣어서 봅니다!


그리고 최소 6개월치 이상의 “일별 데이터”를 기입한 raw data 를 만들어주시면 되십니다.


그런데요, 한 가지 주의하셔야 될 게 있습니다.


한글로 넣으시면 안됩니다.


한글이 아닌 무조건 “영어” 로 넣으셔야 GPT든 R이든 손쉽게 뽑힙니다.


안그러면 글자가 깨지거나 그래요, 그러니까 꼭 번역을 하셔서 넣으시길 바라겠습니다.


위 지표들의 번역은 그냥 제가 써놓겠습니다.


UV / New Visitor / Return Visitor / Leads / Purchase(ea) / Purchase / Sales / Spent Amount 또는 Asset / Click


저기에 이제 저는 나중에 다항회귀나 SVM 모델을 적용할 때 쓸 CPS / CPC / CTR 이라는 지표도 함께 추가합니다.


3. 실행


자 이제 raw 까지 준비가 다 되셨으면, GPT에게 던지기만 하면 됩니다.


간단하게 제가 활용한 raw 예시를 보여드리면 다음과 같습니다.




이 raw는 한 21년 부터의 데이터를 다 기입해놓은 것입니다.


최소한 180일 이상의 데이터를 쌓으셔야 됩니다!


자 이제 완료가 다 되셨으면, GPT-4를 킵니다.




어드밴스드 데이터 분석을 눌러주시고 프롬프트를 입력해주세요! (어드밴스드 데이터 분석은 GPT4에서만 보이는 기능입니다, 그러므로 결제를 해주세요! 싸다싸 20달러!)


제가 연구한 프롬프트를 먼저 드릴테니 이걸 복사하셔서 던지세요.


Using the base data, calculate the pairwise correlation between all variables in the dataset. do not visualize just wanna download, xlsx type.


자 그럼 GPT4에게 던져볼까요?




네 저기서 이제 다운로드 버튼을 누르고 파일을 열면?




짠! 이렇게 바로 나왔습니다.


이제 우리는 이 r 값을 보면서 생각해볼 수 있는 거죠.


그런데 저는 이렇게 꽉 차 있는 것 보다 간편하게 보는 것을 좋아해서 다음과 같이 수정해서 봅니다.




1을 경계로 윗 부분은 날려서 봅니다 ㅎㅎ 그게 보기 편해서요.


이제 이 데이터들을 읽으면서 서로 어떤 관계가 있는지를 파악해보면 됩니다.


참으로 간단하죠?


원래 R로 했을 때도 간단하기는 했지만, 그 문법과 각종 패키지를 설치하고 그 패키지를 또 열고, 디렉토리 설정해주고 문법을 치고 등등 이런 명령어들이 들어가야 하지만, GPT-4와 함께라면 이렇게 간단하게 (흔히 요새 말하는 밈인) “딸깍” 에 끝낼 수 있습니다.


여기서 보이는 r 값을 가지고 회의를 하셔도 되시고 또는 가설을 증명해내실 수도 있고요.


앞서 말씀드렸던 개념을 활용해서 인과관계에 도전하기 전 상관관계를 분석해보며 어떤 것이 부족했고, 어떤 것을 잘하고 있었는지를 점검해볼 수도 있습니다.


더불어서 GPT-4에게 해석을 부탁할 수도 있구요.


솔직히 이거 들고 경영진에게 찾아가서 제안도 할 수 있으면서, 이 데이터들을 바탕으로 성과를 내는데 초석이 될 수 있다고 생각합니다.


저도 제 연봉이 튀었던 계기가 되었던게 상관관계 분석을 실무에 도입한 시점부터 였습니다.


이걸 가지고 분석과 방안, 다음 글에서 쓸 여러 통계기법을 통해 실험을 진행했고 적어도 실패하지 않는 방법들을 찾게 되면서 부터였죠.


다른 지표들도 추가 해서 관계성을 따져보시면서 진행해도 좋으실 듯 합니다.


어디까지나 이 글에서 제시한 지표들은 기본적인 지표들이므로 상황에 맞게 또는 주관적으로 중요하다고 생각되는 지표들 꾹꾹 눌러담아 진행해보세요.


만들어내는 것 까지는 알려드렸으니 해석하는 것 부터가 이제 진정한 레벨업의 길이라고 생각합니다.


해석하는 건 글쎄요, 저 말고도 많은 유수의 고수분들이 계시기에 그 분들에게 질문을 해보셔도 꽤나 많은 도움을 받으실 수 있다고 생각합니다.


4. 마치며


우리 마케터 분들에게 이 시리즈가 도움이 반드시 되시길 빌며, 저는 이만 물러가도록 하겠습니다.


추후에 이 시리즈를 완결하고 나면 이 시리즈들을 기반으로 강의도 개설해보고 싶은 생각도 있습니다.


아실지 모르겠지만, 제 강의는 늘 염가라서 받아주실 강연 회사가 있으실지 모르겠네요. (제가 뭐 대단하다고 강연료를 비싸게 받고 싶은 생각은 없거든요.)


그 강연에서는 데이터를 해석하는 것 까지 진행할겁니다.


네, 그러면 이만 물러가도록 하겠으며, 다음 시리즈 때 찾아뵙도록 하겠습니다.


감사합니다.


우뇌 드림.


데이터데이터분석상관관계상관관계분석
목록글쓰기
댓글 10
댓글 새로고침
로그인 후 더욱 많은 기능을 이용하세요!아이보스 로그인