데이터 중심 조직의 동반자, 데이터 전문 기업 소프트라인

기본 개념 정도는 이해하자

머신러닝과 AI는 누구나 한 번쯤은 들어본 적이 있을 정도로 너무나 유명하지만 정작 그 개념을 이해하고 있는 사람들은 너무나 적은 양자역학이나 상대성 이론같은 용어가 되었습니다. 물리학자들이 이러한 과학용어의 개념을 이해하지 못하고 있는 것이 어불성설이듯, 데이터 중심 조직의 구성원들이 머신러닝과 AI의 개념을 이해하고 있지 못하는 것 역시 어불성설입니다. 모든 사람들이 기술적인 상세 내용까지 알 수는 없겠지만 적어도 그 기본개념은 상식으로 갖추어야 합니다.

AI (Artificial Intelligence)

AI, 즉 인공지능은 인간의 지시에 완벽하게 종속적인 수동적인 머신 (Old Machine) 들을 자율적으로 판단하고 행동하는 능동적인 머신 (Smart Machine) 들로 변화시키는 모든 관련 기술들의 집합입니다. 즉, 어떤 특정한 단위 기술이 AI와 등가의 개념이 될 수 없고, 단위 제품이나 플랫폼을 도입한다고 해서 AI를 업무에 접목시켰다고 할 수 없습니다. 예를 들어, 대표적인 AI의 적용 사례인 자율 주행 자동차의 경우 주변 도로상황을 모니터링하는 레이더, 수집된 주변 정보 데이터를 바탕으로 차량의 경로를 판단하는 두뇌 역할을 하는 머신러닝 기반의 소프트웨어, 소프트웨어의 판단에 따라 실제로 자동차를 조작하는 액츄에이터 (Actuator) 등 다양한 기술요소들이 밀접하게 통합된 결과물입니다.

AI를 구성하는 요소 중 머신으로 하여금 자율적인 판단과 반응이 가능하게 하는 머신의 두뇌 역할을 수행하는 요소가 바로 머신러닝입니다. AI에 대한 많은 오해 중 하나가 머신러닝과 AI를 동의어로 이해하거나, 딥러닝과 AI를 동일시하는 경우도 많은데, 머신러닝은 현대의 AI를 구성하는 가장 중요한 요소이며, 딥러닝은 머신러닝의 수많은 알고리즘 중 하나인 인공 신경망 (Artificial Neural Network) 를 지칭하는 용어로 머신러닝의 부분집합입니다. AI, 머신러닝, 딥러닝의 상관관계에 대해서는 바로 이어서 다루도록 하겠습니다.

머신러닝 (Machine Learning)

왜 머신러닝이 AI의 두뇌에 해당하는 핵심요소일까요? 머신러닝이라는 용어 자체를 살펴보면, 우선 ‘머신 (machine)’ 은 컴퓨터를 의미합니다. ‘러닝 (learning)’ 은 ‘학습’ 으로 해석할 수 있지만 그 의미를 해석하기가 쉽지 않습니다. 사실 여기서 ‘학습’ 이라는 말은 ‘통계적 학습 (Statistical Learning)’ 또는 ‘귀납적 학습 (Inductive Learning)’ 의 줄임말로 이해해야 합니다. 통계적 학습이란 데이터 속에 존재하는 패턴을 통해 새로운 지식을 학습하는 것을 의미합니다.

예를 들어, 삼각형의 세 내각의 합은 몇 도인지 새롭게 배우려 한다고 합시다. 우선 첫번째 학습 방식은 우리가 중학교에서 배운대로 기초적인 기하학 원리를 이용한 증명이 있습니다 (증명방식은 하단 이미지 참조). 이 증명 과정을 통해 데이터에 의존하지 않고 순수하게 논리에만 의존해 삼각형의 세 내각의 합은 180도라는 것을 학습할 수 있고, 동시에 모든 삼각형에 적용 가능한 법칙이라는 것도 알 수 있습니다. 이와 같이 논리에 의존한 학습방식을 연역적 학습 (Deductive Learning) 이라고 합니다.

두번째 방식은 많은 삼각형들의 세 내각을 실제로 측정하여 결과를 확인해 보는 방법입니다. 이론상 무한대로 존재하는 삼각형 중 약 100개 삼각형을 무작위로 추출해 내각을 재어 보면 내각의 합은 모두 180도일 것입니다. 무한대의 모수 중 100개의 표본만을 검증하였으므로 표본의 비율이 너무 작아 표본에 포함되지 않은 나머지 삼각형에 같은 법칙이 적용될 것이라고 확신하기는 어렵습니다. 이제 표본의 수를 100만개로 늘려서 내각을 측정하면 100만개 모두 180도의 결과를 보일 것이고, 100개의 표본보다는 발견의 신뢰도가 크게 높아질 것이고 모든 삼각형의 내각의 합이 180도라는 발견을 사실로서 학습하게 됩니다. 이처럼 모수로부터 추출한 표본들 사이에 존재하는 패턴으로 전체 모수에도 적용 가능한 법칙을 학습하는 것을 귀납적 학습 (Inductive Learning) 이라고 합니다. 표본을 추출하고, 표본 내 패턴을 수학적으로 찾아내고, 표본 내 법칙의 일반화 정도를 측정하는 것이 바로 통계학이므로 통계적 학습 (Statistical Learning) 이라고도 합니다.

머신러닝은 머신, 즉, 컴퓨터가 수행하는 통계적 학습으로서 한 문장으로 정리하면 컴퓨터가 표본 데이터 속에 존재하는 전체 모수로 일반화 가능한 패턴을 찾아 스스로 학습하는 과정입니다. 사람은 연역적 학습과 귀납적 학습을 통해 새로운 것을 학습합니다. 컴퓨터는 귀납적 학습을 통해서만 새로운 것을 학습합니다. 단, 컴퓨터는 인간에 비해 귀납적 학습 능력이 압도적으로 뛰어나기 때문에 일부 영역에 대해서는 인간보다 뛰어난 학습능력과 지능을 보이기도 합니다 (예 : 알파고). 삼각형 표본 100만개의 내각을 측정하는 일은 인간에게는 몇 달은 족히 걸릴 엄청나게 힘든 일이지만 컴퓨터에게는 1시간도 안 걸릴 일입니다. 왜 그럴까요? 귀납적 학습 혹은 통계적 학습의 본질은 수학과 통계학이고 이는 결국 연산이기 때문입니다. 당연한 이야기지만 컴퓨터는 대용량의 데이터에 대한 반복 연산에 있어 인간보다 훨씬 뛰어납니다. 애초에 Computer 란 Compute (연산하다, 계산하다) + er 로서 연산기라는 뜻입니다.

수학과 통계학에 기반한 통계적 학습의 역사는 컴퓨터의 역사보다 몇 백년은 더 오래 되었습니다. 통계적 학습을 수행하고 연구하던 이들이 컴퓨터가 등장한 이후 그 연산능력의 가능성을 인지하고 컴퓨터가 통계적 학습을 수행한다면 인간 지능을 능가하거나 그에 버금가는 인공지능을 만들 수 있을 것이라 생각했고, 이들에 의해 1950년대에 만들어진 용어가 바로 Machine + (Statistical) Learning, 즉 머신러닝입니다.

또한, 데이터로부터 패턴을 도출해 이를 모델화하는 통계적 학습의 방법론을 컴퓨터가 수행할 수 있는 방법론, 즉, 알고리즘으로 변환한 것을 머신러닝 알고리즘이라고 합니다. 어떤 문제이든 그 성격에 따라 선택할 수 있는 방법론의 종류가 다양하듯이 머신러닝 알고리즘 역시 그 종류가 다양합니다. 그리고 그 중 하나가 인간의 신경망을 모사한 인공 신경망 (Artificial Neural Network)입니다. 인공 신경망은 복수의 계층 혹은 레이어로 구성되는데 이 레이어의 수가 많고 레이어를 구성하는 노드들이 복잡한 구성을 이루고 있는 다중 인공 신경망을 지칭해 레이어의 수가 많아 인풋에서 아웃풋까지 이르는 경로가 길고 깊다는 의미로 딥 러닝 (Deep Learning) 이라고 합니다.

머신러닝과 AI의 부상

머신러닝과 AI에 대한 큰 오해 중 하나가 둘 모두 21세기에 새롭게 등장한 신기술이라는 오해입니다. 컴퓨터를 활용한 AI의 역사는 1956년부터 본격적으로 시작되었고, 머신러닝이라는 개념이 처음 등장한 것 역시 1959년입니다. 근 60년 이상의 역사를 가진 머신러닝과 이를 기반으로 한 AI가 왜 갑자기 2010년경부터 급부상하게 된 이유를 이해하려면 머신러닝의 필요조건을 함께 고려할 필요가 있습니다.

이유 1 : 빅데이터 시대의 도래
머신러닝의 개념에서 살펴보았듯이 머신러닝은 실제 데이터를 살피어 귀납적으로 새로운 지식을 학습하는 방식입니다. 당연하게도 학습의 바탕이 되는 데이터가 부족하다면 처음부터 성립이 되지 않습니다. 1950년대에 등장한 머신러닝이 오랜 동안 빛을 보지 못했던 가장 큰 이유가 바로 이것입니다. 하지만 1990년대 말부터 빅데이터 시대가 시작되자 이 문제는 서서히 해결되기 시작해 2010년대에 들어서자 폭발적으로 성장하게 되었습니다.

이유 2 : 고성능 컴퓨팅
머신러닝의 기술적 본질인 대용량 데이터에 대한 반복적 연산을 위해서는 이를 가능하게 해주는 컴퓨팅 성능이 보장되어야 합니다. 무어의 법칙으로 대표되듯이 하드웨어의 성능은 그야말로 기하급수적으로 보강되어왔고, 비용 역시 급감하였습니다. 하드웨어의 비용 대비 성능이 지속적으로 늘어났을 뿐만 아니라 이제는 클라우드 서비스를 통해 저비용으로 고성능의 리소스를 확보하는 것도 가능해졌습니다. 또한 GPU, MPP 등 병렬 처리 시스템, 클라우드 서비스 등이 각광을 받으며 머신러닝의 가능성이 빠르게 현실화된 것입니다.

이유 3 : 머신러닝 알고리즘의 발전
머신러닝 알고리즘의 본 바탕인 통계적 학습 방법론의 역사는 수 세기에 걸칠 정도로 오래 되었습니다. 컴퓨터로 그 기반을 옮겨온 이후 머신러닝 알고리즘은 기존의 방법론들을 보다 컴퓨터에 적합하도록 진화하시키거나, 아예 새로운 알고리즘들이 등장하였습니다. 특히나 눈부신 발전을 이룬 영역이 바로 인공 신경망입니다. 머신러닝 알고리즘의 진화는 머신러닝과 이를 기반으로 한 AI의 가능성을 큰 폭으로 향상시켜 주었습니다.

당부의 글

머신러닝과 AI에 대한 많은 오해 중 어쩌면 가장 악영향을 끼치고 있는 것은 머신러닝과 AI를 수단이 아닌 목적으로 여기는 것입니다. 무엇이든 머신러닝, 인공지능이라는 말이 포함된 제품이나 서비스에 투자만 하면 데이터 중심 조직이 되고, 4차 산업혁명을 대비하는 것이라는 오해가 팽배합니다. 이러한 오해가 잘못된 투자로 이어지고, 결국 회의론으로 귀결돼 데이터 중심 조직을 목표로 하는 것 자체를 포기하게 됩니다.

머신러닝과 AI는 데이터 사이언스를, 그리고 궁극적으로 데이터 중심 조직이 되기 위한 수단이지 목적이 아니며, 더군다나 모든 문제를 해결할 수 있는 만병 통치약은 더더욱이 아닙니다. 또한, 데이터 중심 조직으로서의 문화 속에서 적절한 데이터 시스템과 역량있는 인력을 갖추는 등 농사를 짓는다는 심정으로 긴 안목을 가지고 가꾸고 육성해야 결실을 맺는 것이지 특정 벤더의 제품이나 서비스에 대규모 투자를 하여 단기간에 얻어지는 것도 아닙니다.

이렇게 하려면 머신러닝, AI에 대한 조직 내 이해도를 높이고, 역량있는 인재들을 확보해야 하며, 고위 임원의 강력한 리더쉽에 기반해 장기적인 로드맵을 수립해야 합니다. 제품이나 서비스의 선택의 기준 역시 이러한 로드맵과 비전에 따라 진행되어야 합니다. 이런 바탕이 갖추어져 있지 않으면 그럴듯한 말들로 포장한 벤더 혹은 컨설팅 펌들의 호구가 되기 십상인 것이 요즘의 현실입니다.