[Be a Data Scientist] _ 대체 뭐길래 ?! (데이터 분석 & 데이터 마이닝 & 머신러닝 & 인공지능)

in #kr7 years ago (edited)

Be a Data Scientis


얘네들 뭐예요 ?

  • Data Mining
  • Statistics
  • Deep Learning
  • Machine Learning
  • Big data
  • AI (Artificial Intelligence)

: 4차 산업혁명, 알파고의 등장, Google Home(에코), Amazon, Google 의 미친짓 등등 요즘 가장 핫한 분야가 제가 위에 나열한 분야라고 생각 됩니다. 물론 IOT, Connected Car, Sharing economy 등 다양한 이슈들이 있지만 이슈들 또한 어떻게 데이터를 처리하고, 자동화 하는지에. 대한 부분이 core라 생각됩니다.

앞으로 이 분야에 관하여 Steemit 에 한글로 된 자료를 정리하자는 취지로 그 방점을 찍어보려 합니다. 저도 아직 모르는 것이 너무 많고, 제가 잘못된 지식을 알고 있을지도 모르니 언제든 첨언&수정&지적 부탁드립니다.

데이터 분석의 개요와 용어 정리에서 시작하여 기본 알고리즘 소개, 분석툴 소개, 최신 연구동향 등에 대하여 지극히 개인적인 견해로 다룰 예정입니다.


그럼 첫 번째로 복잡하게 남용되고 있는 용어들을 나열해보고 Steemit kr 사용자는 같은 의미의 언어로 사용하고자 용어들을 정리해보도록 하겠습니다.


  • Data Mining

    : Data Mining은 가장 포괄적인 단어로 사용됩니다.
    [데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다.
    [https://ko.wikipedia.org/]

    데이터 마이닝은

     데이터 저장 -> 데이터 불러오기 -> 데이터 정체하기 => 시각화 or 데이터 탐색 => 모델링 -> 제품화 or 자동화 -> 데이터 저장

의 사이클을 가지고 진행됩니다. => 의 표시로 된 부분에서는 시각화/데이터 탐색에서 사이클이 종료되고 다시 처음으로 돌아갈 수도 있고, 같은 의미로 => 모델링이 종료되고 다시 처음으로 돌아갈 수 있습니다. 여러 종류의 알고리즘이 있고, 굉장히 광범위한 부분이라 오늘은 '아 이런거다~' 의 개념만 드리도록 하겠습니다.

  • Statistics
    : 통계학은 데이터에 접근하는 전통적인 방법으로, 크게 두가지 종류로 나누어 볼 수 있습니다. 기술통계와 추리통계로 나누어 지는데, 기술통계는 평균, 분산 등 한 종류의 자료 설명에 관심이 많은 친구입니다. 사과 한상자가 있는데 그 상자안에 있는 사과 크기의 평균, 사과 크기 분산 등과 같이 사과 한놈한테만 관심이 있습니다. 추리통계는 두 개 이상의 변수에 관심이 많은데 (사실 표본을 추출하고 모수를 추청하는 통계기법이지만 다른 관점으로 바라보면) 사과 한상자가 있는데 그 안에 사과들 당도가 얼마나 되는지 알고싶습니다. 근데 모든 사과를 다 먹어볼 수 없으니 3개 정도를 먹어보고 '아 이 상자속 사과는 달구나' 라고 판단을 내릴 수 있죠. 이 때 우리는 사과 - 당도 의 관계에 대하여 생각해 봅니다. 통계학은 데이터 마이닝을 수행하는 하나의 도구로 사용된다 생각하시면 좋으실 듯 합니다. (오로지 데이터 과학자의 관점 + 저의 관점 입니다)

  • Deep Learning
    : Deep Learning 은 사실 그냥 큰 범주를 갖는 알고리즘 중 하나입니다. Deep learning 이라는 용어가 너무 유행이라 여기에 넣어 보았습니다. Deep learning 은 Neural network 라는 machine learning 도구를 좀더 학습을 잘하도록 발전시킨 것이라 생각하시면 됩니다. 이 부분에 대해서는 나중에 더욱 자세히 들여다 볼 예정입니다. (Deep learning은 만능이 아니야!! 라고 혼자 소리쳐 봅니다)

  • Machine Learning
    : 머신러닝은 이렇게 ‘기계’가 일일이 코드로 명시하지 않은 동작을 데이터로부터 ‘학습’하여 실행할 수 있도록 하는 ‘알고리즘’을 개발하는 연구 분야이다. (1959년 아서 사무엘). 기계에게 어떻게 동작하도록 하나하나 모두 입력하지 않고도 스스고 학습하여 원하는 행동을 하도록 만드는 것을 이야기 합니다. 알파고에게 기보를 주고 바둑을 스스로 학습시킨 것 처럼 목표를 가지고 그 목표에 알맞게 기계가 행동하도록 만드는 것입니다.

    Machine learning vs Data Mining
    : 이 둘은 매우 유사하고 겹치는 부분도 많지만 이름에서 풍기는 느낌처럼 Machine learning은 기계를 학습시키는 것을 목표로 하고, Data Mining은 데이터에서 지식을 발견하는 것을 목표로 합니다.

  • Big data : Big data 는 말그대로 많은 데이터 입니다. 데이터가 많아진다고 해서 완벽한 기계를 만들거나, 엄청난 정보를 뽑아낼 수 있다는 것은 아닙니다. 요즘 빅데이터라는 용어가 많이 사용되고, 컴퓨팅 능력의 향상으로 기술이 발전된 것은 맞지만, Big data라는 단어가 분석&AI 등 모든것을 내재하고 있는 듯하게 사용된다는 점은 조심해야 할 부분이라 생각됩니다. small data에서도 엄청난 insight를 뽑아낼 수 있습니다.

  • AI (Artificial Intelligence) : Machine Learning을 통하여 기계 스스로 결정을 내리거나 주어진 task를 수행하는 모든 것을 말합니다. 물리적 기계를 지칭하는 말로 주로 사용되지만 소프트웨어나 자동화 프로그램 모두 AI 라고 불립니다. Strong AI & Weak AI 등에 대한 이슈도 많은 논의가 필요하고, 이야기가 필요하다 생각됩니다.


처음 접하는 분들에게는 너무 내용이 어려울 수 있기에 마지막으로 요리에 비유하여 정리해보도록 하겠습니다.

  • Data Mining = 요리하는 모든 과정! (재료 재배부터 신요리 개발까지)
  • Statistics = 요리 재료 확인
  • Deep Learning = 요리하는 방법 중 하나
  • Machine Learning = 기계가 요리재료도 분류해주고, 자동화 요리
  • Big data = 재료도 많고, 종류도 많음
  • AI (Artificial Intelligence) = 사람에게 뭐먹을지 물어보고 요리해주는 machine
  • Data Scientist = 요리사!

사실 너무 주관적으로 정리한 글이라 틀린 부분도 존재하고, 공개된 공간에 글을 옮기는 것이 조심스럽지만 Data science를 공부하는 초심자의 입장에서 소개하는 글을 적고 싶었습니다. 읽어주셔서 감사합니다.

Sort:  

오 이 포스팅을 통해 Data science에 대한 큰 그림을 머릿속에 그려볼 수 있을 것 같네요! 평소에 제 전공인 심리학의 특성상 추론통계만을 주로 사용하고 있어서 머신러닝이나 빅데이터 분석 등에 관심이 많습니다. 앞으로도 좋은 포스팅 기대하겠습니다 :)

감사합니다! 사실 쉽게 정리해서 쓴다고 했지만 글쓰는 능력이 부족하여 너무 모자란 것 같습니다.
저 스스로 발전시킬 수 있는 기회라 생각하고, 앞으로 많이 지켜봐 주세요!

제가 공부할 대만 해도 지도교수님이 AI쪽으로는 말리는 분위기였습니다. 한때는 논문도 안받아주는 시절이 있었다고 합니다. 학계가 AI에 좌절한 영향이었을겁니다.

와 평소에 궁금했던 내용들이에요! 맨날 많이 들었지만 사실 내용까지는 생소한 단어들이라 큰 도움이 됐습니다 ! 다음 글들도 기대되네요