거대언어모델은 자연어 처리 기술에 딥러닝 기술을 접목하여 대규모의 텍스트를 사전에 학습함으로써 무수히 많은 문장의 문맥 정보를 모델에 반영해 정확도를 높이는 언어 모델을 뜻한다. 근본적으로 자연어처리는 인간의 언어를 이해하는 것을 목적으로 하는 기술로 1과 0으로 모든 데이터를 다루는 컴퓨터가 복잡한 인간의 언어를 이해할 수 있도록 다양한 기술적 요소를 접목한 것을 뜻한다. 자연어처리를 위해서는 자연어를 기계로 처리할 수 있도록 숫자의 나열인 벡터로 바꾸는 과정을 뜻하는 임베딩(Embeddig)과 이용 목적에 따라 텍스트의 의미를 결정적으로 파악할 수 있도록 유의미한 정보를 추출하고 분석하는 텍스트 마이닝(Text Mining)이 기본적으로 필요하다. 텍스트에서 의미있는 정보를 처리하기 위해서 텍스트를 용도에 맞게 먼저 처리하는 텍스트 전처리(Text Preprocessing), 텍스트 안에서 의미 분석에 방해가 되는 주요 요소들(예를 들면, 특수 기호나 불필요한 조사)를 제거하는 텍스트 정제, 텍스트를 특정한 기준으로 분리하는 토큰화(Tokenization) 등이 텍스트 마이닝의 과정에 포함된다. 뿐만 아니라 표제어나 어간을 추출하고 품사를 레이블로 알려주거나 단어의 결합이나 구와 절의 결합을 식별하는 작업, 텍스트 분석에 의미 없는 불용어를 제거하는 작업 등 복잡한 기술이 텍스트 마이닝의 과정에 포함된다.
딥러닝 기술이 발전하면서 자연어처리기술은 함께 발전해 왔다. 자연어처리기술의 발전 초반에는 딥러닝 기술을 활용해 텍스트를 분류하는 작업에 집중했다. 하지만 트랜스포머(Transformer) 모델이 등장하면서 방대한 양의 텍스트 데이터 세트를 사전에 학습하여 텍스트를 인식하고 생성하는 등의 작업을 수행하는 대규모 언어모델로 발전했다. 사전에 학습하였다 함은 모델이 방대한 양의 텍스트 문서를 미리 학습하여 무수히 많은 일상의 문장들과 단어들이 어떤 식으로 사용되었는지 알고 있음을 뜻한다. 자연어 처리 전문가들은 이 같은 대규모언어모델을 이용해 자연어 처리와 관련된 원하는 형태의 모델로 재조정할 수 있다. 버트(Bidirectional Encoder Representations from Transformer, BERT)와 지피티(Generated Pre-trained Transformer, GPT)가 대표적인 대규모언어모델이다.
버트는 2018년 구글이 공개한 대규모언어모델로 북코퍼스(BookCorpus) 8억 단어와 영어 위키피디아 25억 단어를 학습했다. 버트는 문장의 분류, 문장 내 비어 있는 단어의 예측, 주어진 문장에 이어질 문장의 예측, 개체명 인식, 문장 번역 등에 활용될 수 있다. 지피티 역시 대규모언어모델로 버트에 비해 자연어에 대한 생성적 영할을 주로 수행한다. 즉, 영문 이름에 드러나듯 버트의 경우 양방향 계산을 수행하여 문장에서 빈 칸의 앞, 뒤, 문맥을 모두 살피는데 특화되어 있다. 지피티의 영문 이름은 생성을 강조하는데 지피티는 버트와 달리 단방향으로 계산을 처리하여 주어진 단어의 다음 단어를 예측하는 데 특화되어 있다. 사용자가 원하는 수준까지 다음 단어를 예측하면서 문장을 생성할 수 있음을 의미하는데 몇 개의 키워드나 질문을 입력하면 이미 학습한 문장의 패턴에 기반하여 키워드나 질문에 이어질 가장 적합한 단어나 문장을 생성한다. 신경망을 기반으로 하는 딥러닝 모델은 모든 노드의 수를 뜻하는 파라미터 수가 많을수록 모델의 복잡도와 정확도가 올라간다. 지피티-1은 1억 1,700만개의 파라미터를 사용했는데 2022년 후반 공개된 챗지피티는 지피티-3기반 서비였으며 이는 1,750개의 파라미터를 갖는다.
2018년에만 버트, 지피티-2, 지피티-3, 스위치-씨(Swith-C) 등 대규모 언어 신경망 모델이 등장했으며 이들은 경쟁적으로 더 큰 대규모언어모델 개발에 열을 올렸다. 대규모언어모델의 개발에 기술기업들이 주목하는 이유는 언어 모델을 처음부터 생성하는 것에 비해 대규모언어모델을 재조정하면 매번 방대한 양의 데이터와 이를 처리하는 막대한 컴퓨팅 자원과 시간이 필요하지 않다. 이미 사전 훈련된 모델을 조정하는 작업만 거치면 되기 때문에 효율적이다. 하지만 대규모언어모델 개발 자체가 누구에게나 허락되지는 않는다. 대규모언어모델의 경우 모델의 정확도를 높이기 위해서는 필연적으로 사전 훈련 데이터를 방대하게 늘림과 동시에 모델의 파라미터 수도 기하급수적으로 증가시켜야 한다. 이를 수행할 수 있는 자본을 가진 기업은 소수 기술 기업뿐이다. 또한 대규모언어모델에 적합한 크기의 언어 데이터는 그 언어를 사용하는 인구가 많거나 사용하는 사람이 많은 언어에 제한된다. 대규모언어모델을 기반으로 한 서비스에서 영어를 사용했을 때 정확도가 더 높을 수 밖에 없는 이유다. 또한 적절하게 큐레이션되지 않은 대용량의 인터넷 데이터는 필연적으로 차별과 편견을 내재한다.
구글 인공지능 윤리팀의 창설자이자 연구자였던 팀닛 게브루(Timnit Gebru)는 동료 연구자들과 함께 작성한 ‘통계학적 앵무새의 위험성에 대하여: 언어 모델이 지나치게 거대해질 수 있는가?(On the dangers of sotchastic parrots: Can language models be too big?)’라는 논문을 통해 대규모언어모델의 문제점을 지적했다. 게브루는 비롯한 저자들은 언어모델의 사이즈가 커지면 자연어처리 인공지능이 더 많은 업무를 수행할 수 있음은 자명하지만 훈련 데이터가 많아지는 것이 데이터의 질적 다양성을 보장하는 것은 아님을 비판했다. 예를 들어, 지피티-2의 훈련데이터에 핵심적이었던 온라인 플랫폼은 절반 이상이 남성이고 18-29세 사이의 연령 분포를 갖는다. 대규모언어모델의 학습 과정에서 규모가 작은 집단의 의견은 자연스레 배제된다. 이렇게 훈련된 대규모언어모델이 상용화되었을 때 사회에 가져올 수 있는 잠재적 위험성이나 이미 겪은 문제들에 대해 충분히 논의되고 있지 않다는 한계가 있다.그럼에도 불구하고 대규모언어모델을 기반으로 한 인공지능 서비스는 문장생성 뿐 아니라 실시간 통역 및 번역 서비스나 챗봇 등 다양한 분야로 확대되고 있다.
작성자: 이정현(중앙대학교 인문콘텐츠연구소 HK연구교수)