“작은 고추가 맵다?”…‘소형 언어모델’(sLLM) 부상 > Industry news

“작은 고추가 맵다?”…‘소형 언어모델’(sLLM) 부상

페이지 정보

작성자 관리자
댓글 0건 조회 746회 작성일 23-08-10 05:22

본문

막대한 비용, 훈련시간 등 초대형 언어모델의 대안으로 등장
산업 현장 ‘맞춤형 모델’, LLM 매개변수 1~10% 정도로 충분
글로벌 빅테크 등도 ‘눈독’, LLM못지않게 개발 경쟁 치열

초대형 언어모델(LLM) 기반의 생성AI가 AI기술의 차원을 새롭게 바꿔놓고 있는 가운데, 소형언어모델(sLLM)이 최근 부상하고 있다.

LLM은 대량의 데이터 역량과 막대한 비용 등 그 개발부터가 쉽지않다. 그래서 오픈AI를 시작으로 구글, MS, 메타 등 글로벌 기업들이 이를 선점하고 있다. 그러나 이들 빅테크 역시 최근엔 경제성과 맞춤형 성능을 겸비한 ‘sLLM’의 개발에 눈을 돌리고 있다.

스탠포드 대 연구를 참조한 지식 사이트 ‘ITFIND’나, 기술 매체 ‘테크크런치’, 한국지식재산연구원 등의 연구에 따르면 이는 “AI 모델 크기가 AI 성능과 비례하는 것은 아니며 AI 성능은 매개변수 크기 외에도 다른 다양한 요소들에 의해 좌우될 수 있다”는 인식 전환에 바탕을 두고 있다.

꼭 필요한 자신들 분야 ‘독자적 언어모델’ 선호

특히 기존 빅테크들은 대형언어모델 경쟁만 치열하게 벌이기보다는 매개변수를 줄여 비용과 훈련 시간을 줄이고, 특정 분야에 효과적인 역량을 발휘할 수 있는 sLLM에 주목하고 있다.

또 일반 산업현장에서도 초거대AI 언어모델 챗GPT와는 달리, 다방면의 모든 정보가 아니라, 꼭 필요한 자신들의 분야에 관한 독자적인 언어모델을 선호하고 있다.

그런 면에서 상대적으로 작은 언어모델을 의미하는 소형언어모델 ‘sLLM’ 부상하고 있다. 실제로 대표적인 대형 언어모델 GPT-3의 경우, 매개변수가 1,750억 개, 팜(PaLM)은 5,400억 개 달하는데 비해, 소형언어모델은 매개변수 60억~100억 개 규모에 그친다.

특히 이런 소형언어모델은 훈련 시간, 비용, 필요한 데이터 등이 상대적으로 적고, 다른 여러 애플리케이션과 통합하기 쉽다는 것이 장점이다.

이에 ‘ITFIND’는 구글 팜이나, 오픈AI의 GPT-3가 비교했다. 즉, 구글 팜은 슈퍼컴퓨터 두 대로 50일 이상 훈련해야 하며, 오픈AI의 GPT-3는 훈련 비용만 1천만 달러(약 130억 원)가 든다.

이에 따르면 또 sLLM은 특정 분야에 한정되어 있지만 깊이 있는 데이터를 학습할 수 있으며 머신러닝 매개변수를 줄여 비용과 훈련 시간을 줄이고 미세조정을 통해 정확도를 높일 수 있다.

파인튜닝 통해 정확도↑, 보안위험↓

그 때문에 최근엔 자신들이 필요한 특정 분야에 최적화된 sLLM 개발과 도입이 확산되고 있다. 예를 들어 각기 다른 기업들이 갖고 있는 자산을 바탕으로 자신들만의 sLLM을 구축한다. 이는 해당 기업에게는 최적화된 모델이 될 수 있다.

최근 LG AI 연구원이 공개한 ‘엑사원 2.0 버전’은 그런 점에서 주목할 만한 얘기다. 이는 매개변수 17억 개, 88억 개, 250억 개, 700억 개, 1,750억 개, 3,000억 개 등 6종의 LLM이 있다. 최소형에서 초대형까지 고르게 포함하고 있는 셈이다.

이는 “매개변수를 줄인 대신 질 좋은 데이터를 학습시키고 미세 조정(파인튜닝)하는 방식으로 성능을 개선했다”는 설명이다. 즉, 사전 학습된 언어모델에 소량의 도메인 특화학습 데이터를 추가로 학습시켜 사용자가 원하는 모델을 생성한 것이다.

기업 입장에서는 이를 저렴한 비용으로 신속하게 만들 수 있고, 자신들이 보유한 데이터를 활용해 맞춤형으로 구축할 수 있다.

이런 움직임은 해외 빅테크도 마찬가지다. 기술사이트 ‘라이프아키텍트.ai’에 따르면 특히 마이크로소프트가 최근 GPT-3.5의 매개변수 1% 미만 수준인 13억 개의 매개변수만 가진 소규모 언어모델 ‘파이-1(phi-1)’을 공개해 주목을 끈다.

‘파이-1’은 실제로 소정의 테스트에 GPT-3.5보다 우수한 성능을 보인 것으로 알려지기도 했다. 즉 “모델 크기를 확대하기보단, 품질 개선을 통해 성능을 달성할 수 있다는 것을 입증한 셈”이란 얘기다.

특히 전문가들은 “LLM 크기가 줄어들면 기업들이 우려하는 보안 문제도 해결할 수 있다”고 해 주목을 끈다. 대규모 모델은 아무래도 외부 서버를 활용해 클라우드 방식으로 사용하기 때문에 AI에 입력한 정보가 외부 서버에 공유되는 구조다. 그래서 최근 많은 기업들이 사내 챗GPT 사용을 제한한 것도 그 때문이다.

그러나 모델 크기가 작아지면 기업 자체 서버나 PC 등에 넣어 구동할 수 있어 정보 유출 가능성이 적다. 또한 이는 스마트폰에서도 쓸 수 있도록 지원할 수 있다.

출처 : 애플경제(http://www.apple-economy.com)

댓글목록

등록된 댓글이 없습니다.

Customer Support