챗GPT·빙챗·바드를 부끄럽게 만든 1등 클로드
페이지 정보
본문
10만개 토큰 길이로 컨텍스트 창 확장
컨텍스트 창(Context Window)을 10만 토큰으로 확장한 앤트로픽의 인공지능(AI) 챗봇 ‘클로드’가 오픈AI의 챗GPT, 마이크로소프트(MS)의 ‘빙챗', 구글의 ‘바드’ 보다 더 적은 환각으로 더 많은 텍스트를 더 빠르게 생성하는 것으로 나타났다.
검색 전문매체 서치엔진저널은 3일(현지시간) 클로드, 챗GPT, 빙챗, 바드를 사용해 텍스트 생성 작업을 비교 실험한 결과, 클로드가 다른 AI 챗봇들의 성능을 크게 능가했다고 전했다.
앤트로픽은 지난 5월 클로드의 컨텍스트 창을 기존 9000 토큰에서 10만 토큰으로 확장한 ‘클로드-인스턴트-100k(Claude-instant-100k)’를 출시한 바 있다.
컨텍스트 창은 다음 단어를 예측하기 위해 참고하는 토큰 수다. 하나의 단어는 1개 이상의 토큰에 해당한다. 토큰 10만개는 약 7만5000개 단어에 해당한다. 본질적으로 더 긴 컨텍스트 창을 통해 모델은 더 많은 텍스트를 기억할 수 있다.
짧은 컨텍스트 창을 가진 모델은 최근 대화 내용을 잊어버리는 경향이 있어 주제에서 벗어나게 된다. 수천 단어 정도 후에 초기 요청을 잊어버리고 대신 원래 요청이 아닌 컨텍스트 창 내의 마지막 정보에서 행동을 추정한다.
오픈AI의 표준 GPT-4 모델은 컨텍스트 창으로 8000개의 토큰을 지원하고, 확장 모델은 3만2000개의 토큰(약 2만5000개 단어)을 지원한다.
MS의 빙챗은 프롬프트 입력 상자에 0/4000으로 표시돼 최대 4000자까지만 허용되지만, 실제로는 6000개 단어에 해당하는 최대 4만400자를 입력으로 받을 수 있다.
구글의 바드는 최대 1만자를 허용한다.
클로드는 GPT-4 확장 모델보다 3배 더 많은 입력을 허용한다. 프롬프트 입력 측면에서는 컨텍스트 창이 클수록 더 많은 데이터를 입력으로 제공할 수 있기 때문에 더 복잡한 쿼리에 응답할 수 있다.
긴 컨텍스트 창을 이용하면 미세조정을 통해 모델의 가중치를 실제로 수정하지 않고도 새로운 데이터를 입력으로 직접 제공하는 '퓨샷 러닝'을 통해, 본 적이 없는 데이터를 사용해 주어진 쿼리에 정확하게 응답할 수 있다.
동일한 입력 쿼리에 대해 클로드, 챗GPT, 빙챗 및 바드가 생성하는 작업 결과를 비교하기 위해 먼저 1850단어(1만2500자)로 구성한 126개의 항목 리스트의 각 항목을 재작성하도록 요청했다.
그 결과 클로드는 환각없이 126개 전 항목에 대한 재작성을 완료했다. 또 다른 챗봇에 비해 작업을 가장 빨리 수행했다.
반면 챗GPT는 37번째(#38) 항목에서 작업을 중지했다. 계속해서 ‘생성’을 지시하자, 37번째 항목을 완료하고 다시 중지했다. 그런 식으로 126번째(#127)까지 요청된 작업을 완료했지만, 원래 요청된 작업에 없었던 항목(#128~#143)을 생성한 후 재작성을 완료했다.
빙챗은 환각 없이 126번째(#127) 항목까지 재작성을 완료했지만, 18번째(#19) 이후 항목에 대해서는 입력한 항목과 동일한 내용을 생성했다.
구글의 경우는 1만자 입력 제한 때문에 프롬프트 목록에서 99(#100)개 항목만 제출할 수 있었다.
두번째 작업 비교를 위해 소셜 플랫폼에서 미국 시민을 보호할 수 있는 방법에 대한 청문회에 대한 틱톡의 답변을 문서화한 PDF 자료 중 2만3508단어(12만5104자)로 구성한 텍스트를 요약하도록 요청했다.
요청 결과 클로드는 전체 텍스트를 간결하게 요약했다.
반면 챗GPT는 더 짧은 입력 텍스트를 요청했고, 빙챗은 작업 도중 연결이 끊겼으며, 바드는 처음 1만자에 대해서만 요약했다.
마지막으로 1만4787자로 구성한 PHP 코드를 디버깅하도록 요청했다.
클로드는 주어진 PHP 코드에서 몇가지 수정 사항을 제안했다.
반면 챗GPT는 PHP 코드에서 잘못된 것을 구체적으로 지적하기 어렵다며 대신 일반적인 확인 사항만을 제안했다.
빙챗은 코드를 디버깅할 수 없다고 응답했다.
검색 전문매체 서치엔진저널은 3일(현지시간) 클로드, 챗GPT, 빙챗, 바드를 사용해 텍스트 생성 작업을 비교 실험한 결과, 클로드가 다른 AI 챗봇들의 성능을 크게 능가했다고 전했다.
앤트로픽은 지난 5월 클로드의 컨텍스트 창을 기존 9000 토큰에서 10만 토큰으로 확장한 ‘클로드-인스턴트-100k(Claude-instant-100k)’를 출시한 바 있다.
컨텍스트 창은 다음 단어를 예측하기 위해 참고하는 토큰 수다. 하나의 단어는 1개 이상의 토큰에 해당한다. 토큰 10만개는 약 7만5000개 단어에 해당한다. 본질적으로 더 긴 컨텍스트 창을 통해 모델은 더 많은 텍스트를 기억할 수 있다.
짧은 컨텍스트 창을 가진 모델은 최근 대화 내용을 잊어버리는 경향이 있어 주제에서 벗어나게 된다. 수천 단어 정도 후에 초기 요청을 잊어버리고 대신 원래 요청이 아닌 컨텍스트 창 내의 마지막 정보에서 행동을 추정한다.
오픈AI의 표준 GPT-4 모델은 컨텍스트 창으로 8000개의 토큰을 지원하고, 확장 모델은 3만2000개의 토큰(약 2만5000개 단어)을 지원한다.
MS의 빙챗은 프롬프트 입력 상자에 0/4000으로 표시돼 최대 4000자까지만 허용되지만, 실제로는 6000개 단어에 해당하는 최대 4만400자를 입력으로 받을 수 있다.
구글의 바드는 최대 1만자를 허용한다.
클로드는 GPT-4 확장 모델보다 3배 더 많은 입력을 허용한다. 프롬프트 입력 측면에서는 컨텍스트 창이 클수록 더 많은 데이터를 입력으로 제공할 수 있기 때문에 더 복잡한 쿼리에 응답할 수 있다.
긴 컨텍스트 창을 이용하면 미세조정을 통해 모델의 가중치를 실제로 수정하지 않고도 새로운 데이터를 입력으로 직접 제공하는 '퓨샷 러닝'을 통해, 본 적이 없는 데이터를 사용해 주어진 쿼리에 정확하게 응답할 수 있다.
동일한 입력 쿼리에 대해 클로드, 챗GPT, 빙챗 및 바드가 생성하는 작업 결과를 비교하기 위해 먼저 1850단어(1만2500자)로 구성한 126개의 항목 리스트의 각 항목을 재작성하도록 요청했다.
그 결과 클로드는 환각없이 126개 전 항목에 대한 재작성을 완료했다. 또 다른 챗봇에 비해 작업을 가장 빨리 수행했다.
반면 챗GPT는 37번째(#38) 항목에서 작업을 중지했다. 계속해서 ‘생성’을 지시하자, 37번째 항목을 완료하고 다시 중지했다. 그런 식으로 126번째(#127)까지 요청된 작업을 완료했지만, 원래 요청된 작업에 없었던 항목(#128~#143)을 생성한 후 재작성을 완료했다.
빙챗은 환각 없이 126번째(#127) 항목까지 재작성을 완료했지만, 18번째(#19) 이후 항목에 대해서는 입력한 항목과 동일한 내용을 생성했다.
구글의 경우는 1만자 입력 제한 때문에 프롬프트 목록에서 99(#100)개 항목만 제출할 수 있었다.
두번째 작업 비교를 위해 소셜 플랫폼에서 미국 시민을 보호할 수 있는 방법에 대한 청문회에 대한 틱톡의 답변을 문서화한 PDF 자료 중 2만3508단어(12만5104자)로 구성한 텍스트를 요약하도록 요청했다.
요청 결과 클로드는 전체 텍스트를 간결하게 요약했다.
반면 챗GPT는 더 짧은 입력 텍스트를 요청했고, 빙챗은 작업 도중 연결이 끊겼으며, 바드는 처음 1만자에 대해서만 요약했다.
마지막으로 1만4787자로 구성한 PHP 코드를 디버깅하도록 요청했다.
클로드는 주어진 PHP 코드에서 몇가지 수정 사항을 제안했다.
반면 챗GPT는 PHP 코드에서 잘못된 것을 구체적으로 지적하기 어렵다며 대신 일반적인 확인 사항만을 제안했다.
빙챗은 코드를 디버깅할 수 없다고 응답했다.
바드는 첫 1만자에 대해 오류가 없다고 응답했다.
결과적으로 짧은 입력 쿼리에 대해서는 클로드, 챗GPT, 빙챗 및 바드 모두 적절한 응답을 생성해낼 수 있었지만, 길고 복잡한 쿼리에 대해서는 컨텍스트 창이 긴 앤트로픽의 클로드가 압도적인 성능을 보였다.
한편 계산 요구 사항은 입력 길이에 대해 제곱으로 커지기 때문에 컨텍스트 창으로 설명되는 텍스트가 길수록 훈련 및 추론에서 모델을 실행하는 데 더 큰 비용이 든다.
클로드 가입자는 챗GPT 플러스 가입자 가격과 비슷한 월 19.99달러(약 2만6000원)에 10만 토큰으로 확장된 ‘클로드-인스턴트-100k’를 사용할 수 있다.
출처 : AI타임스(https://www.aitimes.com)
결과적으로 짧은 입력 쿼리에 대해서는 클로드, 챗GPT, 빙챗 및 바드 모두 적절한 응답을 생성해낼 수 있었지만, 길고 복잡한 쿼리에 대해서는 컨텍스트 창이 긴 앤트로픽의 클로드가 압도적인 성능을 보였다.
한편 계산 요구 사항은 입력 길이에 대해 제곱으로 커지기 때문에 컨텍스트 창으로 설명되는 텍스트가 길수록 훈련 및 추론에서 모델을 실행하는 데 더 큰 비용이 든다.
클로드 가입자는 챗GPT 플러스 가입자 가격과 비슷한 월 19.99달러(약 2만6000원)에 10만 토큰으로 확장된 ‘클로드-인스턴트-100k’를 사용할 수 있다.
출처 : AI타임스(https://www.aitimes.com)
관련링크
- 이전글대전 안산산단 조성 예정지 ‘시가화조정구역’ 추진 23.06.06
- 다음글대전시, K-켄달스퀘어 대덕연구단지 기업공간 확충 신호탄 23.06.06
댓글목록
등록된 댓글이 없습니다.