기계학습으로 번역되는 머신러닝은 기계가 스스로 데이터 내에 존재하는 어떤 규칙을 찾아내는 것을 의미한다. 대용량의 데이터가 주어졌을 때 데이터의 속성들이 갖는 패턴이나 일반화할 수 있는 요소들을 기계 스스로가 학습을 통해 밝혀내는 것을 뜻한다. 인공지능의 많은 분야 중 하나인데 현재 우리가 경험하는 인공지능은 대부분 머신러닝이 진화하여 이루어진 것이므로 기계학습을 인공지능으로 지칭하기도 한다. 머신러닝은 학습의 종류에 따라 지도학습(Supervised learning), 비지도학습(Unsupervised learning), 강화학습(Reinforcement Learning)으로 나뉜다.
지도학습은 데이터의 종류를 레이블(Label)을 통해 정의해 둔 상태에서 데이터에 대한 학습을 수행하는 것을 의미한다. 즉, 문제뿐 아니라 정답을 레이블을 통해 인간이 제시해 둔 상태에서 컴퓨터는 대용량의 문제를 학습하며 정답을 분류한다. 예를 들어, 사진 속의 사람이 남성인지 여성인지 구분하는 일을 지도학습을 통해 수행한다고 가정해보자. 먼저 학습을 하기 위해 사람의 얼굴이 있는 대량의 이미지가 필요하다. 이 때 학습 데이터는 이미지 안에서 성별을 알 수 있는 여러 요소들(얼굴 모양, 얼굴 크기, 장신구 유무, 머리길이, 배경 등)이며 레이블은 ‘남성’ 또는 ‘여성’이다. 지도학습을 수행하는 알고리즘은 이미지 속의 패턴이나 공통적인 속성을 발견하여 ‘남성’ 혹은 ‘여성’의 레이블로 이미지를 분류하게 된다. 이 레이블은 대개 인간에 의해 사전에 부여된다.
동일한 작업을 비지도학습을 통해 수행하는 경우 데이터에 대해 사전에 부여받은 레이블이 없다. 사실상 인터넷 상의 정보들은 별도의 과정을 거치지 않으면 레이블이 없는 경우가 많다. 정답이 없는 상황에서 데이터끼리 비교하거나 데이터 안에서 발견될 수 있는 공통적인 속성이나 숨겨진 구조를 파악하여 클러스터링, 관계분석, 차원축소, 데이터 생성 등의 업무를 수행하게 된다. 데이터에 대한 종류를 모른 채로 데이터의 패턴과 속성을 학습하게 되는데 군집화(clustering)는 비지도학습의 대표적인 기법이다. 대용량의 데이터에서 유사도가 높은 데이터끼리 군집화를 하여 자동으로 데이터를 분할한다. 검색 엔진, 추천 서비스 등 온라인에서 사용하는 대부분의 인공지능 기술이 비지도학습을 활용한다. 이용자가 특정 키워드를 입력창에 넣었을 때 해당 검색어와 유사도가 가장 높은 그룹을 식별에 그 구성요소를 검색결과화면에 보여주는 식이다. 추천 알고리즘 역시 사용자의 특성을 개인화하고 유사한 특성이나 취향으로 묶이는 이용자 그룹이 선호했던 아이템을 동일하게 추천하는 식이다.
지도학습과 비지도학습은 레이블의 유무에 따라 기계학습이 어떤 방식으로 학습을 수행하여 데이터를 분류하는지에 대한 기술이라면 강화학습은 보상을 최대로 높이기 위한 행동이 무엇인지 추론하기 위해 학습을 수행한다. 이는 분류보다는 확률을 계산하는 방식으로 시시각각 변화하는 확률을 계산하여 최적의 행동을 위한 탐색을 수행한다. 알파고로 대표되는 바둑 프로그램이 대표적인 예시다. 지도학습이나 비지도학습에 비하여 맥락에 대한 이해나 미래에 대한 예측을 기반으로 한 현재의 행동 수정 등 보다 복잡한 과업을 수행할 수 있도록 모델이 개발되어야 하므로 좀 더 고도화된 기술이 요구되는 분야이다.
딥러닝(Deep Learning, 심층학습)은 기계학습의 큰 분류에 속하지는 않지만 기계학습의 방법론으로 거론되며 현재의 인공지능 기술에 가장 핵심적인 역할을 수행한다. 기계학습 알고리즘 중에서 인공 신경망을 수많은 계층 형태로 연결한 기법을 딥러닝으로 일컬으며 수많은 노드들을 거치며 선형, 비선형의 연산을 처리하는 구조이다. 사람의 뇌구조에서 영감을 받은 것으로 알려져 있으며 입력과 출력 사이의 과정을 기계가 스스로 보정하여 학습하기 때문에 인공지능 기술이 지금의 형태를 갖추는데 결정적인 실마리를 제공했다.
기계학습은 인간의 개입이 최소화된 상태에서 기계가 스스로 데이터의 규칙을 찾아 학습하는 것으로 대량의 데이터를 빠르게 검토하고, 인간이 오랜 시간 검토해야 할 데이터의 추세와 패턴을 빠르게 찾을 수 있도록 해준다. 때문에 금융, 마케팅, 소비자 조사 등 많은 분야에서 기계학습이 활용되고 있다. 기계학습과 딥러닝이 상용화되기 이전에는 ‘지능을 가진 기계’를 작동하기 위해서는 사람이 일일일 규칙을 입력하여 시스템을 설계해야 했다. 전문가 시스템을 예로 들면 어떤 규칙을 입력할 것인지는 해당 분야에 전문 지식이 있는 인간 전문가가 담당해야 했지만 시스템을 설계하는 프로그래밍은 기술 개발자가 전담해야 했기 때문에 전문가와 기술개발자 사이의 간극이 있었다. 반면 기계학습에서는 모델이 전문가에 의해 이미 축적된 데이터들을 학습하여 규칙이나 지식을 자동으로 생성한다. 때문에 사회 여러 분야에서 쉽게 전문적 지식에 기반한 시스템을 설계할 수 있게 했다.
기계학습은 구조 상 시간이 지날수록 정확도가 지속적으로 향상되며 정교해진다. 일반적으로 데이터의 양이 많을수록 정확도가 확률적으로 높아질 수밖에 없기 때문에 초반 학습데이터의 양이 많거나 이용자에 의해 지속적으로 데이터가 축적되면 모델은 더욱 정교해질 수밖에 없다. 반면 이는 역설적으로 데이터의 양이 부족한 분야나 사회집단에 대해서는 기계학습을 적용하는 데 필연적인 한계가 있을 수밖에 없다. 또한 많은 양의 데이터와 대량의 데이터를 처리하는 인공지능 연산을 감당할 수 있을 만큼의 기술 자원을 확보하는 것 역시 지역적, 국가적, 기업적 편차를 가져올 수밖에 없어서 기계의 성능을 올리기 위해 필연적으로 자본이 필요해 또 다른 사회적, 경제적 간극을 낳기도 한다.
작성자: 이정현(중앙대학교 인문콘텐츠연구소 HK연구교수)