기술의 발달로 그 어느 때보다 데이터가 넘쳐나는 시대 입니다. 컴퓨터의 추론 능력은 넘을 수 없을 것 같던 한계들을 돌파하고 있습니다. 개인적으로 넷플릭스가 "하우스 오브 카드" 제작 배경을 설명하면서 데이비드 핀처를 좋아하는 사람 중 많은 사람이 BBC의 TV 시리즈물도 좋아한다고 했을 때 나는 나도 눈치채지 못하던 내 컨텐츠 취향의 정체성을 들킨 것 같았습니다. 책 "대량살상 수학무기"는 이런 데이터의 마법을 느끼고 살고 있는 우리에게 경고합니. 데이터를 기반으로한 알고리즘이 당신의 인생을 망칠지도 모른다고. 오늘은 책의 내용을 바탕으로 우리가 주의에 해야할 수학무기의 특징, 수학무기의 생산과정과 이에 대한 해결책을 이야기 해보려 합니다.
대량살상 수학무기는 무엇인가?
"WMD의 세 가지 요소를 알아보았다. 바로 불투명성, 확장성, 피해다"
대량살상 수학무기의 저가가 말하는 대량살상 수학무기는 원리가 불투명하고, 확장성을 갖고 있으며, 실질적인 피해를 일으켜는 데이터 기반 알고리즘입니다. 사실 책에서 이야기하는 수학무기(데이터를 기초로 만들어진 수학적 알고리즘)를 사용하지 않고, 과거와 같이 인간의 판단에 의지하더라도 저자가 말하는 피해는 일어날 수 있습니다. 입사자를 평가하는 알고리즘이 없다면 인종 차별 주의자가 나의 이력서를 검토할지 모릅니다. 또한, 내가 신청한 대출 신청 서류는 아침에 상사에게 질책받고 기분이 나빠진 담당자에게 거부될 수도 있습니다. 그럼에도 수학무기에 관심을 가져야 하는 이유는 불투명성과 확장성 때문입니다.
데이터를 기초로 만들어진 알고리즘이 잘 못되었을 때 이를 되돌리기란 쉽지 않습니다. 데이터를 기초로 만들어진 알고리즘이라하면 사람들은 엄청난 정확성을 가질 것이라 생각하지만 뒤에서 이야기할 여러가지 사례와 같이 얼마든지 잘못된 예측을 내놓을 수 있습니다. 그런데 수학무기가 내놓은 예측이 무언가 잘못 되었음을 알아 차릴 수 있는 사람이 몇명이나 되며 이를 증명할 수 있을까요? 일단, 수학무기가 어떤 데이터를 어떻게 사용했는지 알기 힘들다. 설사, 수학무기의 제조사(?)가 스스로 나서서 자세히 설명해준다 해도, 데이터 사이언티스트와 같이 일정 수준의 전문 지식을 가진자가 아니라면 수학무기의 정체에 대해 정확히 판단하지 못할 가능성이 높습니다. 따라서 억울한 일을 당한 수학무기의 피해자는 자신이 억울한 일을 당한 것조차 알아차리기 힘들며, 누구에게 어떻게 항의를 해야될지도 모를 수 있습니다. 더구나 요즘 각광 받고 있는 딥러닝을 사용할 경우, 알고리즘의 자세한 판단과정은 누구도 알 수 없습니다.
수학무기의 포격 범위(?)는 이론적으로면 무한히 확장될 수 있습니다. 아무리 부지런한 인사 담당자라도 매일 24시간 동안 계속해서 일을 할 수는 없습다. 그러나 수학무기는 사람보다 더 빨리 밤낮으로 쉬지 않고 일하고, 무한히 복제될 수 있기 때문입니다. 또한, 수학무기가 만들어내는 예측은 자기 실현적 특성을 가집니다. 수학무기의 예측은 수학무기가 가질 수 있는 많은 헛점에도 불구하고 일종의 객관적 기준처럼 취급될 수 있습니다. 따라서 수학무기가 내린 평가의 대상이 되는 사람은 이에 맞추어 행동하고, 다른 사람들은 수학무기가 내린 결론을 객관적인 사실로 받아들이기 쉽습니다. 언론이 발표하는 대학 순위에 따라 투자 우선순위를 결정하는 대학들과 대학순위에 따라 달라지는 학생들의 지원율은 이를 잘 보여줍니다. 따라서 잘 못된 하나의 수학무기가 발생 시킬 수 있는 피해는 사람 한 명이 발생시키는 피해와는 비교할 수 없습니다. 대량살상 수학무기에 대한 깊은 논의를 위해서는 먼저 대량살상 수학 무기를 만드는 원인을이 무엇인지 구분해 볼 필요가 있습니다. (*책에서는 이를 명확히 구분하지 않아 막연한 공포감을 조성한다고 생각합니다)
대량살상 수학무기의 탄생#1- 어설픈 모델링이 사람 잡는다
"예측하려는 행동에 대한 데이터가 부족한 상태에서 WMD를 개발하는 경우는 매우 흔하다. ...직무 능력과 직접적 상관관계가 없는 대체 혹은 대리 데이터를 근거로 직무수행능력의 통계적 연관성을 도출한다.""그들에게는 4년의 대학 과정이 수천만 명의 학생은 고사하고, 학생 한 명에게 어떤 영향을 미치는지 조차 정량화할 수 있는 직접적인 방법이 없었다. ..학생 각자가 대학에서 4년간 경험하는 다양한 측면을 객관적으로 측정하기란 불가능했다."
알고리즘을 만든 의도와 관계 없이 부실한 데이터와 추론만으로 만들어진 알고리즘은 수학무기가 됩니다. 알고리즘을 통해 예측하려면 알고리즘의 기반이되는 특성/대상이 수치화할 수 있는 데이터야합니다. 머신러닝을 통한 분석의 대표적인 대상이 이미지, 사운드 등인 것은 이들 데이터가 평가하고자 하는 대상을 온전히 디지털 데이터로 변환할 수 있기 때문입니다. 그러나 수학무기의 효율성 혹은 수학무기가 가져올 수 있는 금전적 이득은 이러한 한계를 무시한 알고리즘을 만들도록 유혹합니다.
책에서 소개하는 워싱턴 교육청은 학생의 시험 성적을 기준으로 교사의 자질을 평가한 것이 좋은 예입니다. 학생의 시험 성적에 영향을 미칠 수 있는 요인은 선생님의 지도력말고도 가정환경, 교우관계, 학교의 커리큘럼 등 많은 요소가 있음에도, 워싱턴 교육청은 학생들의 시험 성적만을 학업 성취와 연결 짓고, 다시 교사의 지도력과 연관지어 평가하였습니다. 더구나 이 평가 모델은 평가하고자 하는 대상, 교사의 지도력은 수치를 통해 객관적으로 검증할 수 있는 것이 아니기에 지속적인 피드백을 통한 평가 모델의 개선도 기대할 수 없습니다. 예측에 대한 검증이 불가능하고 예측에 근거가 되는 요소와 예측의 대상이 매우 약한 연관성만을 갖는다는 측면에서, 이러한 어설픈 평가 모델은 별자리 운세와 같은 유사과학과 다를바 없습니다. 따라서 어설픈 알고리즘에 의해 평가 대상이 된다는 것은 별자리 운세에 우리 인생을 바꿀 수 있는 결정을 맡기는 것과 다를바 없습니다.
대량살상 수학무기의 탄생#2- 기계는 실수 하지 않더라도 기계 만드는 사람은 실수할 수 있다
"어쩌다 잘못된 데이터가 끼어들면(이런 일은 심심치 않게 발생한다) 아무리 잘 설계된 알고리즘이라도 잘못된 결정을 내리게 된다.""인간에게서 지원자들을 차별하는 법을 배운 컴퓨터는 인간들보다 한 술더 떠서 기가 막힐 만큼 효율적으로 차별적인 심사를 했다."
알고리즘을 수행하는 것은 실수도 없고 편견도 없는 기계지만, 알고리즘을 만들고 운영에 관여하는 것은 실수도 하고 편견도 갖을 수 있는사람입니다. 예측 분석에 관한 이론 전공자보다 숙련된 프로그래머들이 예측 분석에서 더 두각을 내는 경우가 심심치 않다는 글을 본적이 있습니다. 예측 분석이 정확한 결과 값의 출력을 목표로 하는 것이 아니라 일정 수준 이상의 정확성을 갖는 확률적 판단을 목표로 하는 것이라 프로래밍 과정에서 있을 수 있는 실수를 발견하기 쉽지 않으며, 예측 분석에 관한 지식이 적은 숙련된 프로그래머가 예측 분석에 관한 이론 전문가들보다 이런 실수를 할 가능성이 적기 때문이라는 분석이었습니다. 이런점을 생각해보면, 논리적인 추론을 바탕으로 공들여 만들어진 예측 분석 모델이라도 모델 생성, 운영 과정에서 인간의 실수가 포함될 가능성은 배제될 수 없습니다. 또한, 알고리즘을 만드는 사람이 편견을 갖고 만든다면 알고리즘도 사람이 가진 편견을 반영할 수 있습니다. 이러한 경우, 기계는 실수 없이 매우 정확히 사람이 가진 편견을 실행하는 대리인일 뿐입니다.
대량살상 수학무기의 탄생#3- 도구의 유용함은 선악을 가리지 않는다
"대학 순위 평가에 사용된 WMD가 부유층과 중산층 학생들의, 그리고 그들 가족 전체의 삶을 비참하게 만든다면, 영리 대학은 그들과 반대편에 있으면서 더욱 취약한 인구 집단을 목표로 한다. 인터넷은 영리 대학이 그렇게 할 수 있는 완벽한 도구를 제공 한다."
잘 만들어진 알고리즘이 생산적인 일을 하는데 유용하듯 악한일을 하는데도 유용합니다. 정보가 적고, 절박한 사람들에게 접근해서 고금리의 대출을 유도한다든지 효능이 없는 상품을 파는 등의 행위 자체는 꽤 오래전부터 계속 일어나고 있는 일입니다. 잘 만들어진(?) 알고리즘을 사용하면 이러한 행위를 굉장히 효율적으로 수행할 수 있다. 알고리즘이 목표로 삼기 쉬운 대상을 정확하고, 적은 비용으로 알려주기 때문입니다. 다만, 휴대전화가 보이스 피싱에 사용된다고 해서 휴대전화를 비난하기 힘들듯, 이러한 사례만으로는 알고리즘 자체를 비난하기는 힘듭니다.
대량살상 수학무기의 탄생#4- 숫자 뒤에 사람 있어요!
"미국에서는 종잡을 수 없는 불규칙한 근무 일정이 갈수록 보편화 되고 있다. 이 같은 업무 방식의 최대 피해자는 스타벅스, 맥도날드, 월마트 같은 기업들에서 일하는 저임금 노동자들이다."
알고리즘은 일정한 목표(비용 절감, 구매)에 따라 설계되고, 이러한 목표에서 목표를 이루는 과정에 참여하는 사람들에 대한 고려는 빠질 수 있다. 최적의 비용으로 종업원의 근무 일정을 계획하는 알고리즘에서 목표는 최적의 비용으로 근무 일정을 계획하는 것입니다. 따라서 이 알고리즘은 종업원의 수면 시간이나, 안정성 등은 고려하지 않습니다. 알고리즘 사용 자체의 목적이 악한 것도 아니고 알고리즘이 부정확한 것도 아니나 피해가 발생하는 경우다. 알고리즘 설계에 기존에 빠져있던 요소에 대한 고려가 필요하다는 것을 보여주는 사례입니다.
새로운 도구에 대한 정확한 이해와 새로운 제도가 필요하다
앞에서 정리한 수학무기 발생 유형을 생각해 볼 때, 알고리즘에 대한 정확한 이해와 새로운 제도가 대량살상 수학무기가 불러올 수 있는 문제를 완화 시킬 수 있다고 생각합니다. 먼저, 알고리즘의 판단이 절대적 진실이 아닌 확률적 판단이라는 명제에 대한 인식이 필요합니다. 데이터를 기반으로한 알고리즘의 대부분은 과거의 기록을 바탕으로 일정한 패턴을 인식하고, 인식한 패턴에 따라 미래를 예측하는 일종의 귀납적 판단이다. 따라서 100% 진실이라기보다는 비록 매우 작은 오차라도 일정 수준 틀릴 가능성을 내포하고 있으며 앞서 살펴본 바와 같이 사람의 잘 못된 인식과 실수도 그대로 포함할 수 있습니다. 따라서 알고리즘의 판단에 대해 반론이나 의심은 허용되어야 합니다. 또한, 알고리즘을 어떤 문제, 예컨대 범죄 발생을 완전히 차단하는 데 사용한다기 보다는 문제의 예방을 하는데 사용하여 알고리즘의 잘 못된 판단을 수정할 수 있는 기회를 남겨둘 필요가 있습니다.
또한, 알고리즘에 맞는 새로운 규제가 필요합니다. 예를 들면, 사회적으로 상당한 영향력을 끼치는 알고리즘, 예를 들면 신용평가 모델이라면 적절한 지식과 권위를 갖는 전문가에 의한 외부 감사를 제도화할 필요가 있습니다. 감시가 없는 알고리즘은 다른 고려 없이 알고리즘 사용자의 이익만을 최대화하고자 하는 욕망만을 반영할 가능성이 높습니다. 따라서 공정성과 사회 정의에 대한 고려를 포함하는 것에 대한 감시가 필요합니다. 다만, 알고리즘 전체에 대한 공개 자체는 바람직하지 않을 수 있습니다. 알고리즘의 전체 공개는 기업간의 공정한 경쟁을 제한할 수 있고, 알고리즘 자체를 역으로 이용하여 악용하려는 사람을 도와주는 것이 될 수 있기 때문입니다. 또한, 제도로 해결할 수 없는 부분은 저자가 참여하고 있는 활동과 같은 캠페인을 통해 대중의 관심을 불러일으키고 기업들이 최소한의 사회적 정의와 공정성을 고려한 알고리즘을 사용하도록 사회적 압력을 줄 필요도 있습니다.
현재는 새로운 기술에 대해 적응하기 위한 과도기
지금으로서는 상상도 할 수 없지만 1950년 대초에 맹독성 우라늄 물질이 들어있는 방사능 실험 장난감이 합법적으로 판매된 적이 있다. 이 사례는 기술에 대한 인식 변화가 얼마나 클 수 있는지 보여주는 좋은 사례일 것입니다. 산업화 시대에 근로기준법이 생겨나고, 자동차가 늘어나면서 도로 교통법이 생겨나듯이 알고리즘에 대한 새로운 규제가 등장하는 것도 자연스러운 것으로 볼 수 있습니다. 대량살상 수학무기가 우리에게 주는 교훈도 현재 존재하는 데이터기반 수학 모델/알고리즘을 모두 걷어 내야 한다가 아니라 새로운 기술에 대한 정확한 인식과 주의가 필요하다일 것입니다.