[7장 3] Hey, siri ! 시리야 !

2011년 10월 애플은 아이폰 4S 발표와 함께 '시리'라는 음성 인터페이스 기반 서비스가 포함되어 있음을 밝힌다. 시리는 초기에 영어, 독일어, 프랑스어를 지원했으며, 시간이 지나면서 다양한 언어로 확장을 한다. 시리는 SRI 인터네셔널이 미 국방연구소와 함께 군사 목적으로 추진한 인공지능 개발 프로젝트의 일환으로 개발된 기술을 상용화한 것이다. 이를 애플이 인수하여 아이폰에 탑재하여, 터치 인터페이스 기반 스마트폰에 음성 인터페이스를 추가하게 된 것이다. 시리 사용을 설정하면, 사용자가 'Hey siri' 또는 '시리야'와 같은 호출 명령을 하면 스마트폰 화면에 시리 음력 입력 화면이 나타나고 사용자의 음성을 인식하여 질문에 답을 하거나, 추천을 하거나, 특정 작업을 실행할 수 있도록 해준다. 동작원리는 간단하다. 사용자의 음성을 녹음하여 서버로 전달하면 뉘앙스사의 기술을 이용하여 음성을 텍스트로 변환한 후에 AI가 이를 분석하여 행동을 결정하여 결과를 전달하는 형식이다.

초기에는 사용자의 음성 데이터가 많이 쌓이지 않아서 인식이 부정확하였지만 점차 데이터가 쌓이고 딥러닝을 통해 AI가 스스로 학습하여 보다 나은 결과를 만들어 주었다. 간단한 대화 부터, 농담, 노래부르기 등 일상적인 대화도 어느 정도 가능해서 초기에 사용자들은 '시리야, 사랑해' 같은 대화를 시도하기도 했다. 애플에서는 정책적으로 지속적이고 감정적인 대화를 하지 못하도록 제한시켜 놓았다고 한다. 스마트폰의 기본적인 기능인 전화걸기, 음악감상, 문자재생, 일정 관리, 웹 검색 및 시스템 설정 등을 시리를 통해서 진행을 할 수 있었으며, 앱과 통합되어 음성으로 문서를 작성하는 등의 작업 수행이 가능했다.

애플이 시리를 통해서 지능형 대화 인터페이스를 구현하고 개인 디지털 비서로 역할을 수행하면서 새로운 시도를 진행하자, 많은 기업들이 음성 인터페이스 기술 개발에 뛰어든다. 구글의 경우, 음성 인식 기능을 애플보다 먼저 구현하였지만 자연어를 인식하는 수준이 아닌 정해진 단어를 인식하는 수준이었다. 구글이 키워드 기반으로 '일정'이라는 단어를 인식해야만 일정 기능이 실행되던 반면에 시리는 '오늘 뭐해야 하지?'와 같이 문장을 파악하여 일정 기능을 수행시킬 수 있었다. 애플이 시리로 지능형 대화 인터페이스를 제공하여, 전체 대화의 맥락을 파악할 수 있게 되자 구글은 이에 자극을 받아서 본격적으로 음성 인터페이스 기반의 지능형 개인 디지털 비서 개발에 박차를 가하게 된다. 구글은 2012년 안드로이드 4.1 젤리빈을 출시하면서 구글나와 구글 음석 인식 서비스를 결합하여 음성 인터페이스를 이용한 개인비서 서비스를 출시한다. 삼성전자는 2012년 갤럭시 S3를 출시하며 'S보이스'를 출시함으로써 음성 인터페이스 경쟁에 참여하게 된다. LG 전자도 G4부터 'Q보이스'라는 이름으로 음성 인터페이스를 지원하는 서비스를 출시하고, 다른 스마트폰 제조사도 유사한 서비스를 출시한다.

애플과 구글 등 스마트폰 OS를 개발하는 회사는 음성 인터페이스를 운영체제 안에 탑재할 수 있었기 때문에 충분한 경쟁력을 가지고 있었다. 그러나 이러한 노력에도 불구하고, 2016년 한 조사 결과에 의하면 13.5%만이 음성 인터페이스를 가끔 또는 자주 사용한다는 결과가 나왔다. 조사응답자의 86.7%는 스마트폰이 음성인터페이스를 제공한다는 사실을 알고 있다고 답변했지만 실제 사용률은 예상보다 저조하게 나왔다.

이러한 상황에서 2014년 11월 아마존은 인공지능 플랫폼인 알렉사의 발표와 함께 아마존 에코(Amazon echo)라는 스마트 스피커를 출시한다. 아마존 에코는 보다 진보한 AI 플랫폼 기반으로 음성 인터페이스를 스마트폰이 아닌 스피커 형식으로 출시한 것이다. 애플과 구글이 장악하고 있는 스마트폰 시장보다는 가정에서 많이 사용하는 스피커를 이용하여 음성 인터페이스와 연계한 것이다. 음성 인터페이스를 이용하기 위해서는 입출력 장치로 마이크와 스피커가 필수인데, 기존에 출력 장치로만 사용하던 스피커에 마이크 기능을 추가하고 인터넷을 연결함으로써 AI와 연계된 최적의 장치로 자리 잡은 것이다. 2017년 한 시장 조사 기관에 의하면 약 천 2백만대의 스마트 스피커가 판매가 되었으며 이중 80%는 아마존 Alexa 플랫폼 기반 제품이라고 한다. 또한 2022년도에는 1억 6천만대 이상이 판매될 것으로 예측했다.

아마존은 인공지능 플랫폼인 알렉사를 개방함으로써 다양한 제품에 응용이 되면서 시장에서 선두의 위치를 차지하고 있다. 물론 아마존의 음성 인식률이 애플이나 구글보다 뛰어난 점도 있으며, 아마존의 쇼핑몰과 연계가 되어 상품을 편리하게 구매할 수 있는 기능을 제공하고 점차로 분야를 확대할 예정이다. 아마존 에코의 성공으로 스마트폰 OS 개발사나 제조사가 아닌 기업도 AI 기술을 확보하고 있으면 음성 인터페이스를 통해서 시장에 진출할 수 있게 해준다. 국내의 통신사인 SK텔레콤과 KT도 통신과 연계하여 스마트 스피커 시장에 진출했으며 네이버, 카카오 같은 인터넷 기업이 진출을 하여 경쟁이 심화되고 있다. 많은 IoT 기업도 구글과 아마존의 플랫폼을 사용하여 시장에 진출하고 있다. 아마존을 가장 큰 경쟁사로 생각하는 구글도 구글 홈이라는 제품으로 스마트 스피커 시장에 진출을 한다. 구글의 막강한 검색 능력을 충분히 활용하여, 보다 다양한 정보를 제공하는데 강점을 강조한다. 또한 애플은 특유의 뛰어난 디자인 감각을 발휘한 홈팟을 출시하여 시장에 진출한다. 애플은 스마트 스피커라는 음성 인터페이스 자체를 강조하기 보다는 스피커 본연의 기능에 출실하면서도 시리를 이용할 수 있는 음성인식 음악 기기로 분류하려고 한다. 애플이 가진 애플 뮤직 등 음악 재생에 초점을 맞추고 있으며, 아직 AI 기술이 덜 성숙되었다고 판단했을 수도 있다.

애플의 시리와 구글 어시스턴스같이 스마트폰에서 시작된 대화형 개인 디지털 비서 기능은 이제 다양한 분야로 확대가 되고 있다. 애플은 MacOS와 TV로 확장하였으며, 마이크로소프트는 Windows 10을 출시하면서 자사의 개인 비서 서비스인 코타나를 OS에 통합하여 제공하게 된다. 애플, 구글, 마이크로소프트와 같은 거대 기업들이 인공지능과 음성 인터페이스 기술에서 경쟁하게 되면서 불만족스럽던 음성 인식률과 대화분석 등이 비약적으로 발전하게 된다. 2018년 5월 구글의 CEO 순다 피차이는 구글 I/O 2018에서 구글 듀플릭스 시영 동영상을 발표한다. 기존에 대화형 인공지능 서비스가 대상이되는 기능이나 정보가 존재해야 하는 반면에 구글 듀플릭스는 실제로 인간이 하는 일을 대신할 수 있는 수준에 이르렀음을 보여준다. 예를 들면, 국내의 배달 서비스앱에 등록되지 않은 음식점이 있다고 하며, 아무리 개인 디지털 비서 서비스라고 해도 주문을 할 수가 없다. 그러나 구글 듀플렉스는 이러한 상황에서 직접 인간처럼 직접 전화를 걸고, 자연스럽게 대화하며, 상대방의 예상과 다른 반응에도 자연스럽게 지능적으로 대화를 이끌어 나간다. 구글은 '텐서플로우 익스텐디드'를 통해 설계된 순환 신경망 기술을 사용했다고 한다. 아직 보완해야 할 문제가 남아있게지만, AI와 음성 인터페이스가 결합한 진화형으로 볼 수 있다. 이러한 기술은 바쁜 직장인 부모가 아이가 아플 경우, AI가 대신 병원 예약을 해줄 수 있으며, 사용자의 시간을 절약해주고 소규모 기업에게 도움을 줄 수 있을 것이고 발표한다.

음성 인터페이스의 적용은 기존의 인터페이스를 대체하거나 보완할 수 있는 역할을 수행할 수 있도록 해준다. TV와 같이 리모콘을 이용하는 경우에 보완재로 동작할 수 있으며, 스마트 와치 같은 경우에는 핵심 인터페이스로 사용이 가능하다. 애플 와치나 안드로이드 웨어 (웨어 OS로 변경됨)를 이용하는 스마트와치는 터치 인터페이스가 내장되어 있어도 근본적으로 작은 화면으로 인해서 입력이 불편할 수 밖에 없다. 메시지를 보내거나 검색을 하기 위해서는 음성인식 기능을 통해서 음성을 텍스트로 바꾸어 주는 기능이 필수이다. 음성 인터페이스가 없는 스마트와치는 스마트폰과 연동하여 기본적인 정보를 전달해주는 역할 정도밖에 수행할 수 없다.

음성 인터페이스는 이외에도 자동차와 같은 분야에도 활용하고 있으며, 이는 구글과 애플, 테슬라, 삼성 등 주요한 기업이 경쟁하고 있는 시장이다. 또한 IoT 기능 분야에서도 활용이 되고 있으며 점차 그 사용 범위는 넓어질 것이다. 앞서 설명한 바와 같이 음성이라는 인터페이스는 인간과 가장 친숙하고 직접적인 인터페이스기 때문에 발전을 할 수 밖에 없다. 이러한 음성 인터페이스 시장에서 성공을 위해서는 음성 컨텐츠의 중요성도 간과할 수 없다. 최근 네이버는 클로바 플랫폼과 스마트 스피커를 출시하면서 오디오 클립이라는 음성 전용 컨텐츠 서비스를 출시한다. 또한 300억원 규모의 오디오 컨텐트 펀드를 조성하여 오디오 컨텐트 기업에 투자를 진행하고 있다. 이는 음성 인터페이스를 이용한 스마트 스피커와 앱에서 음악과 같은 콘텐츠를 소비하고자 하는 시장이 형성될 것이라는 예측을 기반으로 발빠르게 움직이고 있다고 보여진다. 음성 인터페이스 전용의 컨텐트 시장이 크게 성장할 지는 인터페이스 측면에서 보다 정교한 전략과 시장 예측이 필요할 것이다.