본문 바로가기
소소한 빅데이터 이야기

데이터 분석에서 가설을 설계하는 방법

by 레비스탈(Levistyle) 2023. 8. 30.

- 데이터 분석은 결국 질문에 대한 대답을 찾는 과정

- 데이터 분석에서의 가설은 결론이 아니라 과정에 대한 것이어야

- 첫 질문을 시작으로, 다양한 관점에서 데이터를 분석하며 계속해서 새로운 질문을 던져야

- 질문이 중요한 시대, 데이터 분석자는 끊임없이 질문의 기술을 연마해야

 

데이터 분석에서의 가설은 첫째 ‘호기심’이고, 둘째 결론이 아닌 ‘과정’에 대한 것이어야 한다. 데이터를 분석할 때 가설은 필수적이다. 데이터 분석은 대답을 듣기 위한 목적인 만큼 무엇보다 질문이 필요하다. 만약 결론에 대한 가설만 세운 채 데이터 분석을 시작하면 다양하게 보기 어렵다.


예를 들면, 인테리어 시장에 대한 분석을 시작하면서 결론을 ‘인테리어 시장은 꾸준히 성장 중’이라고 염두에 두고 “인테리어 시장에 관한 관심이 높아지고 있을 거야!”라는 가설만을 제시했다고 해보자. 

가설에 따라 열심히 이것저것 데이터를 찾아보고, 뽑아보며 차트도 그렸는데 어느 순간 더는 어떤 데이터를 봐야 할지, 무엇을 분석해야 할지 아이디어가 떠오르지 않는다. 아이디어가 떠오르지 않으니 야근을 해야 한다. 하지만 야근을 해도 아이디어는 떠오르지 않는다. 구글링을 통해 이것저것 자료들을 끌어모은다. 검색 키워드는 ‘인테리어 시장’, ‘인테리어 통계’ 등이다. 어찌어찌 모은 자료를 보고 있다 보니 그제서야 아이디어가 떠오른다. 밤을 새우지 않아도 될 것 같다. 

그런데 뒤늦게 아이디어를 뒷받침할 데이터가 없다는 것을 알게 된다. 데이터는 있더라도 내 생각대로 결과가 나오지 않는다. 또다시 멘붕. 점점 문서 작성이 두려워진다. 문서 작성만 없어도 회사 다닐 맛 나겠는데.. 자, 무엇이 문제일까?


애초에 가설을 잡을 때 보고서의 결론으로 쓸 문구를 고려하여 대표 가설로 잡았기 때문이다. “이 보고서를 다 읽고 나면 정말 관심이 높아지고 있는지 아닌지 알 수 있을 거야”라는 생각이 지배적이었을지도 모른다. 그러니 인테리어 시장 규모가 늘고 있다는 자료를 하나 찾고 나면 멍해지는 것이다. 이제 또 무슨 데이터를 봐야 하지? 갈피를 못 잡게 될 테니까.


가설은 ‘과정’에 대한 것이어야 한다. 애초에 결론으로 도출될 내용만 생각하고 분석에 임해서는 안 된다. 예를 들어 “인테리어 시장이 정말 코로나 전후로 많이 성장했을까?”라는 첫 번째 호기심으로 데이터를 찾아봤다면, 해당 데이터를 보면서 “그런데 이건 전체 품목이 다 같이 올랐을까, 아니면 특정 품목이 주도했을까?”라는 두 번째 질문이 생길 수 있어야 하고, 그에 따라 찾아본 데이터를 보면서 “이 품목이 다른 품목보다 성장률이 높은데, 타깃의 차이가 있는 건가?”라는 식으로 연이어 궁금한 점이 생겨야 한다. 질문에 질문을 거듭하는 것이다.

 

 

 

출처 : 매드타임스(MADTimes)(http://www.madtimes.org)

 

 

 

http://www.madtimes.org/news/articleView.html?idxno=18617

 

데이터 분석에서 가설을 설계하는 방법 - 매드타임스(MADTimes)

데이터 분석에서의 가설은 첫째 ‘호기심’이고, 둘째 결론이 아닌 ‘과정’에 대한 것이어야 한다. 데이터를 분석할 때 가설은 필수적이다. 데이터 분석은 대답을 듣기 위한 목적인 만큼 무엇

www.madtimes.org