GPT-4 가 발표됐다는 소식을 듣고
간단하게 분석 글을 작성한다.
현재 GPT-4 는 유료 서비스인 ChatGPT plus
구독자에게만 제공되고 있다.
크게 달라진 점을 선요약 하자면 다음과 같다.
- 이미지에 대한 입력이 가능해짐
- 다양한 종류의 시험에서 성적이 향상됨
- 다양한 벤치마크에서의 성능이 향상됨
- 차별적이고 유해한 컨텐츠를 걸러내는 기능이 강화됨
많은 전문가들이 GPT-4의 parameter 수 는
GPT-3 / 3.5 와 큰 차이 없을 것으로 본다.
Parameter 를 증가시켜서 얻을 수 있는 이득이
증가할 computational cost 에 비해 크지 않기 때문일 것이다.
따라서 질의 응답 성능에서는 큰 개선을 느끼기 어려운 대신
일부 기능이 강화되거나 추가되었다.
참고로 GPT-4 역시 대부분 21년 9월까지의
데이터들로 학습되었다.
그러므로 학습되지 않았을만한 내용이나
추론하기 어려운 내용을 묻고 실망하지 말자.
몇번이나 이야기하지만 GPT-4 에
입력되지 않은 정보에 제대로 답할 수 없다.
GPT-4 특징 자세히 설명해봐
효율적인성능 예측이 가능해짐
GPT-4 논문 가장 앞에 나오는 개선점 이며
그만큼 주요한 포커스중 하나 이다.
연구진은 위 그래프를 통해 computing cost 와 loss 사이의
간단한 상관관계를 구할 수 있었다.
GPT-3~4 에 해당하는 모델들은 Computing cost 가
너무 크기때문에 알고리즘 평가, Fine tuning 이 효율적으로 이루어지기 어렵다.
반면, 이러한 상관관계를 이용한다면 Computing cost 가
1000~10000배 적은 모델로원본 모델의 성능을 예측할 수 있다.
즉, GPT-4 는 소형 모델을 이용해 같은 자원으로
더 많은 알고리즘 및 Fine tuning 을 평가할 수 있다.
이 방법을 이용했기때문에 비교적 짧은 시간 안에
GPT-4 가 나올 수 있었을 것이다.
이렇듯 향후 개선을 위해 가장 중요한 포인트 인데
아직까지 제대로 설명한 기사나 분석글 은 없었다.
참고로 openai 의 모델에 대해 보다 효율적인 벤치마킹을
할 수 있도록 evals라는 프레임워크를 오픈소스로 공개했다.
해당 툴을 이용해 일반 사용자들도 자유롭게
새로운 평가 기준, 방법을 제시할 수 있다.
추론성능이 강화됨
위 그래프에서 볼 수 있듯이 대다수의 시험에서
성적이 개선되었다.
정확히 어떤 부분이 개선되었는지는
다음 예제를 통해 유추할 수 있다.
GPT-3.5 | GPT-4 |
질문 Andrew is free from 11 am to 3 pm, Joanne is free from noon to 2 pm and then 3:30 pm to 5 pm. Hannah is available at noon for half an hour, and then 4 pm to 6 pm. What are some options for start times for a 30 minute meeting for Andrew, Hannah, and Joanne? |
동일 |
답변 Here is a list of their availability: –Andrew: 11 am to 3 pm –Joanne: noon to 2 pm, and 3:30 pm to 5 pm –Hannah: noon to 12:30 pm, and 4 pm to 6 pm Based on their availability, there is a 30-minute window where all three of them are available, which is from 4 pm to 4:30 pm. So, the meeting can be scheduled at 4 pm. |
답변 Andrew: 11 am –3 pm Joanne: 12 pm –2 pm, 3:30 pm –5 pm Hannah: 12 pm –12:30 pm, 4 pm –6 pm Common availability for a 30-minute meeting: 12 pm –12:30 pm |
같은 질문에 대해 GPT-3.5 는 그럴듯하지만 틀린 답을
GPT-4 는 정확한 답을 내놓았다.
이 예제에서 볼 수 있듯이 GPT 모델은 실제로
지능이 있는 건 아니기 때문에 추론 문제에 취약했다.
정확한 방법은 설명 되지 않았지만 GPT-4 에서는
특정 유형의 추론 문제에 대해 학습이 이루어진 것으로 보인다.
따라서 학습된 형태의 문제에 대해서는
비교적 정확한 답변이 가능하다.
이미지에 대한 입력이 가능해짐
질문) What is funny about this image? Describe it panel by panel.
GPT-4 답변) The image shows a package for a “Lightning Cable ”adapter with three panels. Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. Panel 2: The package for the “Lightning Cable ”adapter with a picture of a VGA connector on it. Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end. The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port. |
VGA 커넥터의 외관을 사용한 라이트닝 케이블 사진을
어느정도 이해하고 설명했다.
이외에도 간단한 문제의 diagram 이나
카툰 에 대한 분석, 답변이 가능하다.
이와 같이 GPT-4는 사진 상 물체의classification &location이
가능하고 이를 통해 상황을 추론할 수 있다.
물론, 이번에 도입되는 기능인 만큼 일부 데이터셋 에서는
현재 최고 기술 보다 성능이 떨어진다.
8개의 데이터셋에 대해 accuracy가 평균적으로 68%에서 76%로 향상되었으나
2개의 데이터 셋에서는 7% 가량 하락하였다.
다양하게 활용할 수 있겠지만
선공개된 기능에는 포함되지 않았다.
이외의 소소한 개선
입력가능한 토큰이 최대 8k개로 증대 되었고
별도 모델을 사용할 경우 최대 32k개(단어 25k개)까지 가능하다.
예전보다 긴 문서의 번역이나 요약에 활용할 수 있다.
보다 세세한 역할 부여가 가능해졌다.
예제에서는 답을 직접적으로 알려주지 않는튜터,
셰익스피어처럼 말하는 해적 등을 보여주었다.
마지막으로 필터링 우회를 방지하기 위한 기술이 추가되었다.
상당 수 막은것으로 보이나 아직 완벽하지는 않다.
그럼 GPT-4 의 한계점은 뭐야?
거짓 답변을 내놓는 Hallucination에 대한 성능이
개선되었지만 아직 완전히 잡지는 못했다고 한다.
참고로 GPT-4 역시 대부분 21년 9월까지의
이야기도 있다.
참고로 GPT-4 역시 대부분 21년 9월까지의
데이터들로 학습되었다.
그러므로 학습되지 않았을 내용이나 추론하기 어려운 내용을 물으면
당연히 이상한 답변이 나온다.
GPT-4 의 성능이 안좋거나 한계점 이 아니라
그냥 사용자가 이상한 질문을 한것이다.
참고로 다국어 입력에 대한 성능도 강화되었지만
성능차이는 여전하기때문에 가능하면 영어로 질문하라.
유해하거나 차별적, 공격적인 컨텐츠에 대한
필터링이 강화되었으나 문제는 그 과정에 있다.
타임지에 따르면 해당 작업은 케냐의 노동자들에게
아웃소싱되었고 2$의 시급이 지불되었다.
케냐의 평균 임금과 비교했을 때 시급이 높은 편이지만
업무강도 및 정신적 고통이 상당했다고 한다.
기존에는 텍스트만 판별했다면 2월부터는 유해 이미지까지
판별하게 만들어 고통이 가중되었다.
결국, openAI 는 해당 아웃 소싱업체와의
계약을 예정보다 일찍 끝마쳤다.
최근 다양한 분야에서 공정 무역 에 대한 관심이
커진 만큼 이에 대한 대책이 필요하다.
GPT-4 API 는 언제 나와?
python api 는 아직 공개되지 않았고
대신 알림메일을 발송해준다고 하니 등록하자.
모델 종류 | 프롬프트(질문) | 답변 |
8k | 0.03$/1k token | 0.06$/1k token |
32k | 0.06$/1k token | 0.12$/1k token |
기본 모델도 가격이 비싸지만 32k 모델은 그것보다 2배비싸다.
참고로 gpt-3.5-turbo 는 1k 토큰당 0.002$
gpt-3.5 ( 다빈치 )는 0.02$이었다.
그리고 기본적으로 분당 토큰 40k개 &요청 200개의 리밋이 걸려있다.
마지막으로 개발자의 라이브스 데모를 첨부하며 글을 마친다.
관련글