슈퍼컴 필요없는 소형 언어모델 'sLLM' 급부상
페이지 정보
본문
매개변수 줄이고 파인튜닝으로 최적화...
저렴하면서도 유연해 기업 맞춤형으로 적합
소규모 대형언어모델(sLLM)이 뜨고 있다. 'sLLM'이라는 용어까지 생겼다. 머신러닝 매개변수(parameter)를 줄여 비용을 아끼고 미세조정(fine-tuning)으로 정확도를 높이는 '맞춤형 LLM'이라는 의미다.
이는 최근 '챗GPT'가 전 세계적인 관심사로 떠오르면서 인공지능(AI)을 도입하려는 기업들 사이에서 대세로 자리를 잡을 것으로 보인다.
테크크런치는 2일(현지시간) sLLM을 집중 소개하면서 이의 가장 큰 장점으로 작은 용량에 따른 머신러닝 소요 시간과 비용 절감을 꼽았다.
매개변수의 경우 오픈AI의 'GPT-3.0'와 'GPT-3.5(챗GPT)'는 1750억개이며 구글의 'PaLM'은 5400억개에 달하지만, sLLM은 60억~70억개에 불과하다는 내용이다.
덕분에 슈퍼컴퓨터를 사용하지 않아도 머신러닝이 가능해 비용과 시간이 대폭 줄일 수 있다는 것이다.
기존 LLM은 학습에 수개월이 걸리고 비용도 적게는 수십만에서 많게는 수백만달러가 들어간다. 반면 최근 등장한 데이터브릭스의 '돌리'는 학습에 3시간이 들었으며, 비용은 고작 30달러에 불과했다.
특정 분야에서는 미세조정과 고품질의 데이터학습을 통해 기존 LLM과 맞먹는 성능을 보여주는 것도 장점이다.
알리 고드시 데이터브릭스 CEO는 "챗GPT는 세상 모든 정보로 훈련했을지 모르지만, 모든 회사가 세상의 모든 정보를 필요로 하지는 않는다. 반면 챗GPT는 회사가 비공개로 보유한 데이터를 학습한 적이 없다"면서 sLLM은 특정 분야에 한정하지만 깊이 있는 데이터를 학습할 수 있다는 점을 강조했다.
이같은 장점으로 sLLM을 도입하는 기업이 빠르게 늘고 있는 것으로 전해졌다.
글쓰기 전문 생성 AI 기업인 라이터는 "각 회사에 맞는 형식과 작업 방식에 맞춰 LLM을 맞춤화하는 것에 집중하고 있다"며 "오픈소스 또는 기존 LLM과 같은 것을 바탕으로 회사 데이터를 미세조정, LLM의 다양성보다 더 안전한 환경에 집중하겠다"는 의지를 밝혔다.
sLLM의 등장은 메타가 지난달 24일 내놓은 LLM '라마'로부터 촉발됐다. 메타는 기본형인 66B(매개변수 650억개)를 비롯해 다양한 크기의 버전을 내놓았는데, 이 가운데 가장 작은 모델은 매개변수가 70억개(7B 버전)에 불과했다. 메타는 매개변수를 키우기보다 LLM 훈련에 사용하는 토큰(텍스트 데이터 단위)의 양을 늘려, 품질을 높였다고 설명했다.
이후 일부 개발자들이 노트북이나 심지어 휴대폰에서도 작동되는 라마 응용 버전을 내놓기도 했다.
스탠포드대학교 연구진도 라마 7B를 기반으로 한 sLLM '알파카'를 공개했고, AI 칩 기업 세레브라스는 다양한 패키지의 sLLM 모델을 선보였다.
특히 지난주에는 갓잇AI가 온프레미스(사내구축형) 형태의 '엘마'를 출시했다. 이 모델은 클라우드 방식이 아니라 머신러닝 괴정에서 기업 데이터가 외부에 공개되는 것을 꺼리는 기업에 최적화된 형태로 알려졌다.
데이터브릭스의 sLLM '돌리' (사진=데이터브릭스)
이는 최근 '챗GPT'가 전 세계적인 관심사로 떠오르면서 인공지능(AI)을 도입하려는 기업들 사이에서 대세로 자리를 잡을 것으로 보인다.
테크크런치는 2일(현지시간) sLLM을 집중 소개하면서 이의 가장 큰 장점으로 작은 용량에 따른 머신러닝 소요 시간과 비용 절감을 꼽았다.
매개변수의 경우 오픈AI의 'GPT-3.0'와 'GPT-3.5(챗GPT)'는 1750억개이며 구글의 'PaLM'은 5400억개에 달하지만, sLLM은 60억~70억개에 불과하다는 내용이다.
덕분에 슈퍼컴퓨터를 사용하지 않아도 머신러닝이 가능해 비용과 시간이 대폭 줄일 수 있다는 것이다.
기존 LLM은 학습에 수개월이 걸리고 비용도 적게는 수십만에서 많게는 수백만달러가 들어간다. 반면 최근 등장한 데이터브릭스의 '돌리'는 학습에 3시간이 들었으며, 비용은 고작 30달러에 불과했다.
특정 분야에서는 미세조정과 고품질의 데이터학습을 통해 기존 LLM과 맞먹는 성능을 보여주는 것도 장점이다.
알리 고드시 데이터브릭스 CEO는 "챗GPT는 세상 모든 정보로 훈련했을지 모르지만, 모든 회사가 세상의 모든 정보를 필요로 하지는 않는다. 반면 챗GPT는 회사가 비공개로 보유한 데이터를 학습한 적이 없다"면서 sLLM은 특정 분야에 한정하지만 깊이 있는 데이터를 학습할 수 있다는 점을 강조했다.
이같은 장점으로 sLLM을 도입하는 기업이 빠르게 늘고 있는 것으로 전해졌다.
글쓰기 전문 생성 AI 기업인 라이터는 "각 회사에 맞는 형식과 작업 방식에 맞춰 LLM을 맞춤화하는 것에 집중하고 있다"며 "오픈소스 또는 기존 LLM과 같은 것을 바탕으로 회사 데이터를 미세조정, LLM의 다양성보다 더 안전한 환경에 집중하겠다"는 의지를 밝혔다.
sLLM의 등장은 메타가 지난달 24일 내놓은 LLM '라마'로부터 촉발됐다. 메타는 기본형인 66B(매개변수 650억개)를 비롯해 다양한 크기의 버전을 내놓았는데, 이 가운데 가장 작은 모델은 매개변수가 70억개(7B 버전)에 불과했다. 메타는 매개변수를 키우기보다 LLM 훈련에 사용하는 토큰(텍스트 데이터 단위)의 양을 늘려, 품질을 높였다고 설명했다.
이후 일부 개발자들이 노트북이나 심지어 휴대폰에서도 작동되는 라마 응용 버전을 내놓기도 했다.
스탠포드대학교 연구진도 라마 7B를 기반으로 한 sLLM '알파카'를 공개했고, AI 칩 기업 세레브라스는 다양한 패키지의 sLLM 모델을 선보였다.
특히 지난주에는 갓잇AI가 온프레미스(사내구축형) 형태의 '엘마'를 출시했다. 이 모델은 클라우드 방식이 아니라 머신러닝 괴정에서 기업 데이터가 외부에 공개되는 것을 꺼리는 기업에 최적화된 형태로 알려졌다.
데이터브릭스의 sLLM '돌리' (사진=데이터브릭스)
시간이 지나면 sLLM은 결국 '기업 전용 LLM'로 변할 것이라는 예측도 나왔다.
지투 파텔 시스코 수석부사장은 "모든 회사는 다른 기업에서 복제할 수 없는 '사용자 지정 데이터셋'을 가지게 될 것이고, 이를 기반으로 특정한 AI 모델을 가지게 될 것"이라고 말했다.
테크크런치가 예측한 대로 각 기업이 맞춤형으로 사용할 수 있는 AI모델을 구축하는 데는 작고 유연한 모델이 더 효과적일 것이라는 평가가 나오기 시작했다.
출처 : AI타임스(https://www.aitimes.com)
관련링크
- 이전글화상회의에 생성 AI 도입 러시...MS·구글 이어 줌·시스코에 스타트업까지 23.04.04
- 다음글대전시 국가산단, 반도체로 본격화···산학연관병 '합심' 23.03.29
댓글목록
등록된 댓글이 없습니다.