아시죠? 가독성은 블로그에서
http://ohseyong.com/?p=1947
[ 읽게 된 동기 ]
마이크로소프트웨어 395호를 데이터 사이언스 특집으로 준비하며, 전반적인 이해를 위해서.
[ 한줄평 ]
빅 사이즈 기업들의 빅데이터 이야기.
[ 서평 ]
데이터 사이언스. 내게도 꽤 의미있는 단어다. 데이터 사이언스를 하지는 않지만, 4년간 다닌 회사를 퇴사할 때 작지 않은 계기가 된 단어이기 때문이다.
3년 전 어느날 “Data Scientist: The Sexiest Job of the 21st Century” 2012년 10월 HBR에 실린 ’21세기 가장 섹시한 직업, 데이터 사이언티스트’라는 이 아티클을 읽으며 당시 조직보다 더 배울 수 있는 곳으로 향해야겠다고 다짐했다. 당시 이 아티클은 내게 충격이었다. 이런 분야가 있다는 것을 2015년에야 처음 알았으며, 내가 하고 있던 일이 너무도 초라하게 보였다.
그 후로 창업도 했고, 프리랜서를 거쳐 지금의 포지션까지. 늘 다양한 생각은 했지만, 이를 실행하기 위한 몇몇 시발점이 된 글이다.
그래서 데이터 사이언스는 뭘까?
데이터 사이언티스트, 정말 섹시할까?
사실 데이터 사이언스에 대해서는 거품이 있다고 생각한다. 나 역시 가장 섹시한 직업이니, 최고 연봉이니 등의 마케팅 용어에 속았다. 하지만 데이터 업무를 하는 실무자들을 만나보면 이야기가 다르다.
“초급 분석가가 쓸모 있는 데이터 과학자가 되기까지 몇 년이 걸리느냐”는 케이디너겟츠닷컴의 설문에 응답자의 50% 이상이 5~8년 걸린다고 답했다. 아닌 게 아니라, 최소 3년은 실제 데이터 작업을 해봐야 기본적인 기초 통계 분석이 어느 정도 가능하다. 학교에서 기초 통계 시간에 평균(mean), 중앙값(median), 최빈값(mode)을 다 배우지만, 현장에서 데이터를 보고 문제 현황을 파악할 때 어떤 값을 기준값으로 사용해야 할지 판단을 못하는 경우도 허다하다. 또한 학교의 샘플 데이터와 현업의 데이터는 차이가 너무 크다.
언론으로 접하는 데이터 사이언스는 정말 화려하다. 마치 그동안 비즈니스로 쌓은 데이터를 몽땅 넣으면 앞으로의 방향성이 “딱!” 나오는 것처럼 말한다. 물론 이 과정에 깊이 관여하는 사람이 데이터 사이언티스트고 말이다.
실제 비즈니스 현장에서는 우주과학자나 물리학자, 수학자만 쓸 수 있는 복잡한 알고리즘을 사용해야 하는 분석 과제는 많지 않고 복잡한 알고리즘은 현업에 적용하기도 쉽지 않다. 데이터 과학자는 검증된 알고리즘을 사용하는 사용자이지 알고리즘 개발자는 아니라는 것을 기억하자.
아쉽지만 실제 데이터를 다루는 사람들은 하나 같이 “쓸 수 있는 데이터가 없다”고 말한다. 실제 데이터가 없기도 하고, 정제된 데이터가 없다는 말이 더 정확하다. 가령 주소 데이터를 다룬다고 해도 ‘서울시’, ‘서울’, ‘서울특별시’, ‘서울 특별시’ 등 같은 의미의 단어가 다양하게 표현돼 당장 쓸 수 없는 것이다. 예시처럼 간단하면 몇몇 매크로로 맞추면 되지만, 현실은 그리 쉽지 않다는게 실무자들의 의견이다.
성공사례 위주로 발표하는 것도 문제다.
P&G는 5단계에 이른 현재, 비즈니스 분석팀장은 회사 전략이나 비즈니스 영역에 그의 기술과 역량을 제공하고, 비즈니스 분석가는 데이터 분석을 활용해 한 부서의 목적보다는 전사적 안목으로 기회를 찾아 적용하고 문제를 해결하기 위한 가설을 세웠고, 데이터 과학자는 데이터를 가지고 복잡한 통계 모형을 만들고, 데이터 팀장은 회사의 의사 결정 프로세스에 필요한 분석 결과를 적용하기 위해 IT 아키텍처를 전사적 안목으로 재구상하여 빅데이터(비정형 포함)를 비즈니스에 활용할 수 있게 만들었다고 한다.
이 분야만의 문제겠냐만은, 2012년 기준 12만 6천명(위키백과) 직원이 있는 P&G의 사례로 희망찬 이야기만 나열한다. 분명 어느 관리자는 이 글을 보고 돌아가 ‘우리도 데이터 분석 하자!’고 말할 것이다. 데이터 중심 비즈니스를 하기까지는 경영진의 노력이 물론 중요하지만, 단순히 탑다운 노력만으로 되는 것이 아니다.
필자는 데이터 과학자나 개발자들, 또는 가능성이 엿보이는 예비 엔지니어들에게 영어 실력만 갖추었다면 외국 기업에서 일하라고 조언한다. 한국 기업에서는 지금의 인력 관리 구조가 바뀌지 않는 한 순수 데이터 과학자나 숙련된 IT기술 개발자로서의 미래는 불투명하다고 보기 때문이다.
마지막 부분에 나오는 필자의 의견이긴 하지만, 그렇다. 사실상 현재 우리나라 IT 상태로는 쉽지 않다. 블록체인이 뜬다며 단순히 ‘탈중앙화’를 외치는 많은 비즈니스 맨을 보면 현재 우리나라 IT 상태를 알 수 있다.
우리나라의 성급함만이 문제는 아니다.
미국 CRM 전문 컨설팅 업체인 뉴클리어스(Nucleus) 연구소의 발표에 따르면, CRM을 통해 얻는 혜택이 최대 100%라고 가정할 때 직접적 매출 증가 혜택은 30%이고 간접적 헤택이 70%라고 한다. 또한 인프라 도입이나 솔루션 개발 후 평균 2.5~3년이 지나야 실질적인 효과가 나타나기 시작한다고 한다.
애초에 데이터 중심 비즈니스를 만들려면, 시간이 걸린다고 한다. 데이터를 수집해야 하고, 적재하고, 인사이트를 도출하고, 실제 적용까지. 이 과정에서 사실상 데이터 관련 조직은 R&D로 편성될텐데, 2~3년 동안 기다려줄 수 있는 기업이 얼마나 될까? 과연 그 기간 동안 섹시하고 스마트하게 연구할 수 있는 담력은 누가 갖고 있을까?
클로즈 루프 프로세스란 데이터 수집에서부터 평가 모니터링까지 원 모양으로 순환하는 데이터 프로세스를 말한다. 다양한 채널에서 생성되는 데이터를 수집, 가공, 분석해 실행 가능한 조치를 현업에 적용하게 되는데, 적용한 후 최소 3개월에서 6개월까지는 아무 일도 일어나지 않을 수 있다. 더러는 그 기간이 1년까지 길어지기도 하는데, 이렇게 긴 기다림 끝에 넘겨받은 데이터를 다시 평가, 분석하고 그 결과를 다음 개발 작업에 또다시 반영한다. 이러한 작업을 반복해 조금이라도 더 발전된 실행 조치를 지속적으로 현업에 반영하는 순환 프로세스다.
과연 데이터 사이언스는 섹시할까?
데이터 분석, 대기업의 전유물인가.
본 책에서도 아쉬움은 있다. 저자 커리어의 한계인지, 업계의 한계인지 사실상 대기업의 이야기만 나온다.
액시엄은 미국 인구 대부분에 해당하는 약 3억 명의 개인정보 데이터를 보유하고 있다. 전 세계로 범위를 넓히면 자그마치 7억 명이 넘는 개인정보를 수집하고 관리한다. 한 사람당 약 1,500가지의 원천 데이터와 그것을 가공 정제한 1,000가지 정도의 정제된 고급 데이터를 보유하고 있으니 어마어마한 양이다.
P&G에 비할바 아니지만 액시엄의 직원 수도 만만치 않다. 2017년 기준 약 3260명(구글검색). 팀 구성원이 단 2명인 나로써는 데이터 분석을 도입하고 싶지만, 엄두가 나지 않는다. 당장 실행할 수 있는 일도 쌓여 있는데, 향후 2, 3년을 보고 투자할 여유는 없다.
데이터 과학자는 통계분석가가 될 수 있지만, 통계 분석가가 데이터 과학자가 되려면 준비 과정이 좀 더 필요하다. 마찬가지로 주로 BI(Business Intelligence) 툴을 사용해 과거 데이터나 정제된 보고서식 통계 데이터를 분석하는 비즈니스 분석가도 데이터 과학자가 되려면, 덜 가공된 데이터를 정제하기 위한 프로그램 코딩 작업과 데이터 활용에 대한 전반적인 지식 그리고 깊이 있는 데이터 마이닝과 고급 분석 알고리즘에 대한 경험이 필요하다.
게다가 이런 저런 전문 지식까지 필요하니, 이 바닥도 빈익빈 부익부가 펼쳐지는 것일까?
액시엄은 하나의 프로젝트에 5명에서 많게는 10명 정도로 팀을 구성하여 투입하고, 컨설팅은 짧게는 3개월, 길면 1년 반 정도 진행된다. 프로젝트 팀은 시스템 프로그래머, 데이터 솔루션 컨설턴트, 데이터 분석가, 데이터 품질 담당자, 팀 코디네이터, 팀장으로 구성되고, 데이터 웨어하우스가 구축되면 그쪽은 그쪽대로 IT팀을 새로 구성해 별도로 진행한다.
비즈니스에 데이터 분석을 접목하고 싶은 입장으로 책을 읽었지만, ‘아, 나는 못하겠구나’ 하는 작은 좌절감도 맛봤다. 빅데이터라고 해서 꼭 빅 사이즈 기업만 할 수 있는건 아닐텐데, 작은 데이터 분석 사례도 다뤄주면 좋았겠다 하는 아쉬움이 있다.
그래서 우리는 어떻게 해야 하나?
마이크로소프트웨어 데이터 사이언스 특집을 만들며, 관련 정보를 보고 있자니 답답한 면도 있다. 그래서 ‘나는 뭘 해야 하는가?’ 하는 질문이다.
데이터로부터 필요한 신호를 가려내고 해석하고 그것으로부터 얻은 인사이트를 활용해 인간에게 가치 있는 무언가를 만들어내는 일은 오직 사람만이 할 수 있다.
오직 사람만이 할 수 있다고 하는데, 그걸 할 수 있는 사람도 부족하다고 한다. 심지어 저자는 한국도 떠나라고 한다. 전문 지식이 부족하고, 영어도 안되지만 그래도 살아남아야 하는 입장에서는 어떤 준비를 먼저 어떻게 해야 할지 고민이 된다.
많은 부분이 대체되는 것은 이해했다. 이제 앞으로의 미래에 대한 글은 그만 봐도 될 정도다. 아쉽지만 그래서 어떻게 해야 하는지에 대해 이야기 하는 사람은 없다.
빅데이터 시대의 진정한 의미는 중요한 의사 결정을 내릴 때 직감이 아닌 데이터에 기초해 과학적이고 합리적인 결정을 내리겠다는 조직 문화의 변화에 있다.
빅데이터 시대다. 그래서 내가 뭘 해야 할지에 대한 의사 결정은 어떤 데이터에 기초해 내려야 ‘과학적이고 합리적’일까?