[활용도가 다양한, 데이터 분석도 가능한 ChatGPT]
안녕하세요, 뉴스레터 '데선배들'입니다!
Chat GPT, 요즘 정말 안 쓰는 사람들이 없죠?
그만큼 활용도가 다양한데요, 데이터 분석도 할 수 있답니다!
이번 회차에서는 Chat GPT로 할 수 있는 데이터 분석 스킬 알려드릴게요:)
더 많은 데이터 분석 스킬,
데이터 관련 직무에 종사하고 있는 현직자 인터뷰가 궁금하시다면
하단 프로필에서 뉴스레터 버튼을 클릭 해주세요💌
한강의 노벨문학상 수상이 출판산업에 미친 영향력은? ‘ChatGPT’로 본 판매량 증가 도서 랭킹
지난 10월 10일, 소설가이자 시인인 한강 작가가 노벨 문학상을 수상했습니다!
도서 판매 사이트가 마비되는 등, 국내 출판업계도 한강 發(발) 특수효과를 누리는 상황인데요.
채식주의자•흰 등 한강 작가 대표작이 소설이다보니, 소설 카테고리가 최대 수혜 카테고리일 것이라 생각하시나요?
한국인 최초 노벨 문학상 수상에 따른 ‘텍스트 힙’ 현상은 또 얼마나 지속될까요?
이번 분석 맛보기에서는 Chat GPT를 활용해
국내 출판유통정보 통합관리 시스템인 출판유통통합전산망에 공개된 도서 판매 데이터를 분석해봤습니다.
데이터 전처리에 Chat GPT 활용하기
한강 작가의 노벨 문학상 수상이 출판 시장에 미친 영향을 분석하기 위해,
9월과 10월의 도서 판매량 데이터를 일별•주제분류별로 수집했습니다.
하지만 데이터가 빈칸이거나 음수로 나타나는 이상치(異常點)가 발견됐습니다.
이상치를 어떻게 처리할지, 즉 데이터를 어떻게 전처리 할지를 결정하기 위해,
다음과 같이 Chat GPT에 질문을 했습니다.
위의 답변을 통해 빈칸은 판매량이 없는 경우로 간주해 값을 0으로 대체하고, 음수는 반품이나 주문취소로 해석해 그대로 사용했습니다.
도서 판매량 데이터 분석하기
1️⃣ Chat GPT로 일별 도서 판매량 시각화하기
Chat GPT에 판매량 데이터와 함께 아래와 같이 질문을 던졌을 때,
GPT가 이렇게 그래프를 그려줬습니다 🙂
출판시장 부동의 1위 카테고리인 어린이 도서를 제외하면,
노벨문학상 수상자 발표일(10월 10일) 이후로 참고서적 판매 증가율이 소설보다 높게 나타났습니다.
한강 작가의 노벨문학상 수상이 참고서적 판매율 증가로 이어졌다? 🤔
참고서적 판매율 급증의 원인을 심층 분석해봐야겠습니다!
2️⃣ Chat GPT로 연도별 도서 판매량 비교하기
이를 알아보기 위해선, 참고서적 올해 판매량 변화 추이를 작년과 비교해봐야 합니다.
작년과 올해 변화 추이가 비슷하게 나타난다면, 한글날(10월 9일)과 같은 고정 특수효과가 작용했다고 해석할 수 있겠죠.
마찬가지로 Chat GPT를 활용해, 작년 참고서적 판매량 변화 추이를 시각화해보겠습니다.
GPT는 아래와 같이 그래프를 그려줬는데요.
한눈에 확인할 수 있듯이, 작년의 참고서적 판매량에는 큰 변화가 없었습니다.
다른 관점에서 판매량 급증의 원인을 다시 분석해보겠습니다!
3️⃣ 판매량 상위 도서 ‘Deep-dive’ 분석하기
이번에는 노벨문학상 수상자 발표 이후, 어떤 참고서적이 많이 판매됐는지 확인해보겠습니다.
아래는 참고서적 도서 판매량 순위입니다.
참고서적 도서들을 랭킹순으로 나열했을 때, 무려 상위 9개 도서가 모두 한강 작가의 책이었습니다.
이제서야, 참고서적의 판매량이 왜 급증했는지 이해가 되네요.
그외에도 판매량 상위 50개의 참고서적 중 80%이상이 소설을 포함한 문학 분류의 도서였습니다.
그렇다면 왜, 문학도서들이 참고서적으로 분류로 됐을까요?
판매량 상위 도서들을 교보문고, Yes 24와 알라딘에서 검색해보니,
베스트 또는 추천 도서 카테고리로 분류되고 있음을 알 수 있었습니다.
베스트 또는 추천 도서가 출판유통통합전산망에선 참고서적 카테고리로 분류됐다고 볼 수 있는 셈이죠!
4️⃣ 인사이트 크로스 체크
참고서적 카테고리 판매량과 소설 카테고리 판매량의 통계적 연관성도 높을까요?
상관관계 🔍 분석은 엑셀에서 아주 쉽게 해볼 수 있습니다!
- 엑셀 시트에서 상관관계를 알고 싶은 데이터 범위를 드래그
[데이터] 탭의 데이터 분석 클릭
-
분석 도구 중 상관 분석 선택 후, 결과표 확인
참고서적 카테고리 판매량과 소설 카테고리 판매량의 통계적 연관성이 높다는 점을 근거로 제시하면,
“한강 노벨 문학상 수상 후, '실질적 판매량 증가율 1위 카테고리는 ‘소설’이다’는 주장의 설득력이 높아지겠죠?
한강 發 ‘텍스트 힙’ 얼마나 이어질까?
9월과 10월의 실질적 소설 판매량(참고서적 카테고리 판매량 + 소설 카테고리 판매량) 데이터를 활용해,
한국인 최초 노벨 문학상 수상에 따른 ‘텍스트 힙’ 현상이 얼마나 지속될지 예측해봤습니다.
예측은 엑셀의 FORECAST.ETS 함수를 통해 쉽게 시도해볼 수 있습니다!
9월부터 10월까지의 판매량 데이터로 11월부터 12월 초까지의 도서 판매량을 예측한 결과입니다.
📢이번 데이터분석 맛보기 ‘찍먹’해보실 수 있도록, 저희가 수집한 도서 판매량 데이터 공유드려요!
- (클릭)다운로드 받으러 가기!
아직 등록된 댓글이 없습니다.
데선배들님의 게시글에 첫번째 댓글을 남겨보세요.