ChatGPT

제목 : 대화형 AI 언어모델 4개 비교해보니…"GPT-4가 가장 우수"

작성일 : 2023-08-17 21:16
조회수 : 189
작성자 : KWSEO
https://n.news.naver.com/mnews/article/001/0014137645?sid=101

연합뉴스 2023.08.18

 

아더(Arthur) AI 연구팀이 GPT와 코히어 AI, 메타의 라마2, 앤스로픽의 클로드2 등 4개의 대규모 언어모델(LLMs)을 비교 분석한 결과, GPT-4가 가장 우수한 성능을 보였다고 밝혔다. 구글의 언어 모델은 이번 연구에서 포함되지 않았다. 연구 중, 각 AI 모델들에 수학, 미국 대통령, 모로코 정치 지도자에 대한 질문을 던져서 정답률을 확인했다.

GPT-4는 특히 환각(hallucination)이 적게 발생했으며, 수학 문제에서는 환각 발생률이 이전 버전인 GPT-3.5보다 33%~50% 적었다. 메타의 라마2는 다른 모델들에 비해 환각이 더 많이 발생했다. 또한, 수학 문제에 대해 GPT-4와 클로드2가 1, 2위를 차지한 반면, 라마2와 코히어는 정답률 0%였다.

미국 대통령과 관련한 질문에서는 클로드2가 가장 높은 정답률을 보였으며, 모로코 정치 지도자 관련 질문에서는 GPT-4가 절반 이상의 정답률을 보였다.

'AI 모델로서 의견 제공 불가'라는 답변을 제시하는 빈도는 GPT-4가 가장 높았으며, 이는 이전 버전보다 증가한 결과로, 사용자들이 GPT-4 사용에 불편을 느낀 것을 반영한 결과로 해석되었다. 반면, 코히어 AI는 해당 답변을 전혀 제시하지 않았다.

또한, 클로드2는 자신이 알고 있는 정보와 그렇지 않은 정보를 정확히 구분하며, 자신의 학습 데이터를 바탕으로 한 질문에만 응답하였기 때문에 '자기 인식' 측면에서 가장 신뢰할 수 있음이 확인되었다.