[책] 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력

빅데이터 시대, 성과를 이끌어 내는 데이터 문해력 – 카시와기 요시키

데이터를 건드리다 보면 뭔가 유용한 정보가 나오지 않을까?

이 책은 처음부터 끝까지 목적 중심의 데이터 활용의 중요성에 관해 이야기한다. 여기서 목적 중심의 데이터 활용이란 ‘애당초 무슨 말을 하고 싶은지(무엇을 알고 싶은지)를 먼저 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식’이다. 그리고 그 반대편에 소위 ‘데이터 중심 접근법’을 대치시켜 비교하고 있다.

그럼 데이터 중심으로 접근하지 말라는 말인가? 요즘 세상에 이런 말이 가당키나 한 것일까

하지만 한 번이라도 데이터를 활용해서 뭔가를 하려고 시도해본 사람들은 책장을 넘기며 자세를 고쳐 앉아 작가의 이야기에 귀를 기울이게 될 것이다. 왜냐하면 자신의 모습과 문제들을 너무나 정확하게 묘사하고 있기 때문이다.

이를테면 이런 문장들이다.

이 데이터를 적당히 건드리다 보면 뭔가 유용한 정보가 나오겠지. 아무것도 안 나온다면 분석 방법이나 지식이 부족하기 때문일 거야

‘나는 데이터를 유용하게 활용해서 성과를 내고 있다’라는 이야기를 들은 적이 제 경험상 거의 없습니다.

데이터 활용을 못 하는 사람들의 공통적인 문제점 그 중 하나는 ‘눈앞에 있는 데이터를 보는 것에서부터 시작한다’는 것입니다

항상 그래프만 잔뜩 그리고는 고민에 빠지게 돼



이런 문제를 겪고 있는 사람들 그리고 통계, 고급 분석기법, 파이썬, 머신러닝 등을 배우는 것이 데이터 활용 능력 향상의 출발점이라고 믿는 사람들이 한 번쯤 읽어보면 좋을 것 같다.


앞으로 필요한 것은 파이썬, 머신러닝, 고급 통계와 분석기법이 아니라 데이터 문해력이다

“데이터를 활용한다, 데이터 공부를 한다, 데이터를 다루는 역량을 개발한다”

이런 말을 들으면 많은 이들이 멋진 시각화를 구현하는 툴을 다루거나 파이썬이나 R과 통계학 이론을 공부해 머신러닝과 딥러닝를 구사하는 상상부터 시작한다. 그런 환상을 교육 업계에서도 잘 알고 있는 듯 당장 SQL을 배우고 파이썬을 배우면 데이터를 활용한 엄청난 퍼포먼스를 낼 수 있는 것처럼 자극적인 광고문구들을 쏟아낸다.

혹시 아래와 같은 악순환에 빠져있지 않는가?

  1. 통계 기법과 데이터 분석 기술에 대한 환상에 많이 노출되고 저것만 배우면 뭔가 될 것 같다
  2. 강의를 등록하고 열심히 공부한다
  3. 실제 업무에서 활용해보지만 한계가 많거나 어떻게 해야 할지 감이 잡히지 않는다
  4. 나의 기술과 스킬이 부족한 것으로 생각한다
  5. (반복) 적절한 시점에 다시 다른 교육 광고에 노출된다
  6. (반복) 강의를 등록하고 열심히 공부한다
  7. (반복) 실제 업무에서 활용해보지만 한계가 많거나 어떻게 해야할지 감이 잡히지 않는다
  8. (반복) …

한가지 짚고 넘어가야 하는 것은 이 책은 통계 이론 및 분석 방법을 바탕으로 도구나 기계를 개발하는 소위 ‘데이터 전문가’를 대상으로 하는 것이 아니라 자신의 목적이나 문제를 데이터로 풀어보고자 하는 사람들이라는 점이다. 보통 후자에 속한 사람들이 위 악순환의 고리에서 빠져나오지 못한다.

이 책에서는 데이터 활용 프로세스를 아래와 같이 3단계로 정의하고 있다.

(1) 생각하고 → (2) 작업하고 → (3) 생각한다

그런데 2번 ‘작업하는 스킬’에 대해서만 공부하다 보니 실제로 데이터를 활용하는데 어려움을 겪는 것이다. 이 책에 따르면 (1)번과 (3)번이 바로 ‘데이터 문해력’이 필요한 단계다. 그리고 1번과 3번이야말로 인간이 기계보다 잘할 수 있는, ‘매뉴얼이나 교과서에 쓰여 있는 대로 흉내 내거나, 기계의 시작 버튼을 누른다고 해서 답이 나오는 것이 아니기 때문에’ 고부가가치 기술이라는 주장이다.

위에서 언급한 생각하고 → 작업하고 → 생각하는 3단계에 대해 조금 더 자세히 살펴보자.


데이터 활용은 어떤 프로세스를 따라야 할까?

작가 카시와기 요시키는 데이터 활용에 필요한 3가지 상자를 아래와 같이 정의한다.

(1) 생각하고 : 분석 전에 문제 및 목적을 정의하고 가설을 구축

(2) 작업하고 : 분석을 위한 기술과 지식

(3) 생각한다 : 분석 결과에 대한 해석 및 스토리 구축

먼저 (1)번 단계에서는 문제와 목적을 분명히 정의해야 한다. 작가가 경계하는 부분은 바로 (1)번 단계 없이 바로 데이터를 들여다보고 데이터로부터 답을 찾으려는 행위다. 그러다 보면 논리의 비약이 큰 결론에 도달하거나, 데이터만 정리하다가 길을 잃어버리는 일이 발생하기 때문이다.

(2)번은 물론 매우 중요한 단계다. 작가도 그 부분을 책의 여러 부분에서 인정하고 있다. 전문적인 분석 기법과 통계 등에 대한 이해도가 높으면 자연스럽게 (1)번과 (3)번의 단계가 더 풍성해질 수 있기 때문이다. 하지만 실제 사례에서는 (2)번 작업단계에만 몰두하다가 길을 잃는 경우가 많아 (1), (3)번의 단계에 대한 중요성을 더욱 강조하고 있는 것처럼 보인다.

마지막으로 (3)번 단계는 분석의 결과를 기술하는 것에 그치지 않는 것이다. 데이터를 분석하다 보면 ‘이런 경향을 보임’ 등에서 끝나는 경우가 많은데, 이건 데이터 분석이라기보다는 데이터 설명이나 데이터 해석이라고 표현하는 것이 더 적절하다. 애당초 데이터를 분석하려는 목적과 문제에 대한 결론과 해결방안이 논리적으로 제시되는 것이 중요하다.

이렇게만 이야기를 들으면 당장 나의 사례에 어떻게 적용해야 할지 모르는 사람이 대부분일 것이다. 그래서 책에서 소개한 디테일 버전의 ‘데이터 활용 프로세스’를 아래 링크로 남겨둔다.

<데이터 활용 프로세스 5단계 바로가기>


(공감주의) 데이터 분석 시 자주 하는 실수들은 무엇이 있을까

1) 문제 정의 단계에 원인과 해결방안이 뒤섞여있다?

정의한 문제: “사무직 제안이 많은 회사라는 이미지 때문에, 제조업종 관련 인재 풀 확보가 어렵다”

위 문제 정의 단계에서 뭐가 잘못됐을까? 바로 시작도 하기 전에 추측으로 원인을 단정했다는 것이다. 본인이 정의한 문제를 다시 한번 살펴보자. 문제, 원인, 해결방안이 뒤섞여 있거나 주관적인 추측이 이미 들어가 있지는 않은가?

2) 느닷없이 해결방안을 내버린다

가장 많은 사람들이 공감할만한 내용이지 않을까. 어느 정도 분석을 하다가 갑자기 해결 방안을 제시해버리는 경우다. 여기서 문제는 데이터에 근거한 결론이 아니라는 점이다. 더 최악의 상황은 그렇게 주관적이고 즉흥적인 결론에 데이터를 끼워 맞추기 시작할 때 일어난다.

이에 대해 작가는 아래와 같이 말하고 있다.

“논리적인 흐름과 구조에 대해 생각하는 것에 비하면 구체적인 방법을 고민하는 것이 즐겁고 편하므로 이를 우선하기 쉽지만, ‘해결 방안’을 고민하는 것은 마지막 단계임을 명심하자”



3) Why에 대한 질문을 적당히 하다가 멈춰버린다

‘왜 그럴까?’라는 질문은 보통 원인을 분석할 때 끈질기게 되풀이한다.

왜 매출이 떨어졌을까? → 이용자 수가 급감했기 때문이다 → 왜 이용자 수가 급감했을까? → 광고 효율이 낮았기 때문이다 → 왜 광고 효율이 낮았을까?

위와 같이 이어지는 연속적인 ‘Why’는 문제의 근본적인 원인으로 우리를 데려다 준다. 하지만 적당한 수준에서 멈추고 싶은 유혹이 항상 찾아온다. 어렵고 귀찮은 과정이기 때문에 당연하다.

하지만 그렇게 멈춰버리면 원인과 해결 방법 사이에는 논리적인 비약이 생기고, 근본적으로는 처음에 정의한 문제를 해결하지 못하게 되는 경우가 많아 주의해야 한다.

4) 결과와 결론을 구분하지 못한다

개인적으로는 결과와 결론을 구분하는 방식이 인상적이었다. 둘의 차이는 아래와 같다.

  • 결과: XXX와 YYY는 차이가 있습니다 → 그래프를 보고 이를 단어로 바꿔 표현한 것
  • 결론: XXX와 YYY의 차이가 존재한다는 것은, ZZZZ라는 의미입니다 → 그 차이가 결국 어떤 내용인지를 설명하는 것

데이터 분석을 하다보면 결과를 기술하는데 그치는 경우가 많은 것 같다. 그리고 그때 되돌아오는 질문은 보통 ‘그래서 뭐라는 거야? 어쩌라는 거지?’다. 결과에서 그치지 않고 결론까지 마무리하는 힘을 길러야 한다.

실제 데이터 활용을 하기 직전에 이 책에서 소개한 프로세스를 참고 삼아 하나씩 따라해보고 싶다면 따로 정리한 상세 프로세스를 참고하도록 하자.

바로 따라하는 데이터 활용 프로세스 5단계 바로가기 ▶

Leave a Reply

Your email address will not be published.