GPT-4 가 발표됐다는 소식을 듣고
간단하게 분석 글을 작성한다.
현재 GPT-4 는 유료 서비스인 ChatGPT plus
구독자에게만 제공되고 있다.
크게 달라진 점을 선요약 하자면 다음과 같다.
- 이미지에 대한 입력이 가능해짐
- 다양한 종류의 시험에서 성적이 향상됨
- 다양한 벤치마크에서의 성능이 향상됨
- 차별적이고 유해한 컨텐츠를 걸러내는 기능이 강화됨
많은 전문가들이 GPT-4의 parameter 수 는
GPT-3 / 3.5 와 큰 차이 없을 것으로 본다.
Parameter 를 증가시켜서 얻을 수 있는 이득이
증가할 computational cost 에 비해 크지 않기 때문일 것이다.
따라서 질의 응답 성능에서는 큰 개선을 느끼기 어려운 대신
일부 기능이 강화되거나 추가되었다.
참고로 GPT-4 역시 대부분 21년 9월까지의
데이터들로 학습되었다.
그러므로 학습되지 않았을만한 내용이나
추론하기 어려운 내용을 묻고 실망하지 말자.
몇번이나 이야기하지만 GPT-4 에
입력되지 않은 정보에 제대로 답할 수 없다.
GPT-4 특징 자세히 설명해봐
효율적인 성능 예측이 가능해짐
GPT-4 논문 가장 앞에 나오는 개선점 이며
그만큼 주요한 포커스 중 하나 이다.

연구진은 위 그래프를 통해 computing cost 와 loss 사이의
간단한 상관관계를 구할 수 있었다.
GPT-3~4 에 해당하는 모델들은 Computing cost 가
너무 크기때문에 알고리즘 평가, Fine tuning 이 효율적으로 이루어지기 어렵다.
반면, 이러한 상관관계를 이용한다면 Computing cost 가
1000~10000배 적은 모델로 원본 모델의 성능을 예측할 수 있다.
즉, GPT-4 는 소형 모델을 이용해 같은 자원으로
더 많은 알고리즘 및 Fine tuning 을 평가할 수 있다.
이 방법을 이용했기때문에 비교적 짧은 시간 안에
GPT-4 가 나올 수 있었을 것이다.
이렇듯 향후 개선을 위해 가장 중요한 포인트 인데
아직까지 제대로 설명한 기사나 분석글 은 없었다.
참고로 openai 의 모델에 대해 보다 효율적인 벤치마킹을
할 수 있도록 evals 라는 프레임워크를 오픈소스 로 공개했다.
해당 툴을 이용해 일반 사용자들도 자유롭게
새로운 평가 기준, 방법을 제시할 수 있다.
추론 성능이 강화됨

위 그래프에서 볼 수 있듯이 대다수의 시험에서
성적이 개선되었다.
정확히 어떤 부분이 개선되었는지는
다음 예제를 통해 유추할 수 있다.
GPT-3.5 | GPT-4 |
질문 Andrew is free from 11 am to 3 pm, Joanne is free from noon to 2 pm and then 3:30 pm to 5 pm. Hannah is available at noon for half an hour, and then 4 pm to 6 pm. What are some options for start times for a 30 minute meeting for Andrew, Hannah, and Joanne? | 동일 |
답변 Here is a list of their availability: – Andrew: 11 am to 3 pm – Joanne: noon to 2 pm, and 3:30 pm to 5 pm – Hannah: noon to 12:30 pm, and 4 pm to 6 pm Based on their availability, there is a 30-minute window where all three of them are available, which is from 4 pm to 4:30 pm. So, the meeting can be scheduled at 4 pm. | 답변 Andrew: 11 am – 3 pm Joanne: 12 pm – 2 pm, 3:30 pm – 5 pm Hannah: 12 pm – 12:30 pm, 4 pm – 6 pm Common availability for a 30-minute meeting: 12 pm – 12:30 pm |
같은 질문에 대해 GPT-3.5 는 그럴듯하지만 틀린 답을
GPT-4 는 정확한 답을 내놓았다.
이 예제에서 볼 수 있듯이 GPT 모델은 실제로
지능이 있는 건 아니기 때문에 추론 문제에 취약했다.
정확한 방법은 설명 되지 않았지만 GPT-4 에서는
특정 유형의 추론 문제에 대해 학습이 이루어진 것으로 보인다.
따라서 학습된 형태의 문제에 대해서는
비교적 정확한 답변이 가능하다.
이미지 에 대한 입력이 가능해짐
질문) What is funny about this image? Describe it panel by panel.

GPT-4 답변) The image shows a package for a “Lightning Cable” adapter with three panels. Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. Panel 2: The package for the “Lightning Cable” adapter with a picture of a VGA connector on it. Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end. The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port. |
VGA 커넥터의 외관을 사용한 라이트닝 케이블 사진을
어느정도 이해하고 설명했다.
이외에도 간단한 문제의 diagram 이나
카툰 에 대한 분석, 답변이 가능하다.
이와 같이 GPT-4는 사진 상 물체의 classification & location 이
가능하고 이를 통해 상황을 추론할 수 있다.
물론, 이번에 도입되는 기능인 만큼 일부 데이터셋 에서는
현재 최고 기술 보다 성능이 떨어진다.
8개의 데이터셋에 대해 accuracy가 평균적으로 68%에서 76%로 향상되었으나
2개의 데이터 셋에서는 7% 가량 하락하였다.
다양하게 활용할 수 있겠지만
선공개된 기능에는 포함되지 않았다.
이외의 소소한 개선
입력가능한 토큰이 최대 8k개로 증대 되었고
별도 모델을 사용할 경우 최대 32k개 (단어 25k개)까지 가능하다.
예전보다 긴 문서의 번역이나 요약에 활용할 수 있다.
보다 세세한 역할 부여가 가능해졌다.
예제에서는 답을 직접적으로 알려주지 않는튜터,
셰익스피어처럼 말하는 해적 등을 보여주었다.
마지막으로 필터링 우회를 방지하기 위한 기술이 추가되었다.
상당 수 막은것으로 보이나 아직 완벽하지는 않다.
그럼 GPT-4 의 한계점은 뭐야?
거짓 답변을 내놓는 Hallucination 에 대한 성능이
개선되었지만 아직 완전히 잡지는 못했다고 한다.
참고로 GPT-4 역시 대부분 21년 9월까지의
이야기도 있다.
참고로 GPT-4 역시 대부분 21년 9월까지의
데이터들로 학습되었다.
그러므로 학습되지 않았을 내용이나 추론하기 어려운 내용을 물으면
당연히 이상한 답변이 나온다.
GPT-4 의 성능이 안좋거나 한계점 이 아니라
그냥 사용자가 이상한 질문을 한것이다.
참고로 다국어 입력에 대한 성능도 강화되었지만
성능차이는 여전하기때문에 가능하면 영어로 질문하라.
유해하거나 차별적, 공격적인 컨텐츠에 대한
필터링이 강화되었으나 문제는 그 과정에 있다.
타임지에 따르면 해당 작업은 케냐의 노동자들에게
아웃소싱되었고 2$의 시급이 지불되었다.
케냐의 평균 임금과 비교했을 때 시급이 높은 편이지만
업무강도 및 정신적 고통이 상당했다고 한다.
기존에는 텍스트만 판별했다면 2월부터는 유해 이미지까지
판별하게 만들어 고통이 가중되었다.
결국, openAI 는 해당 아웃 소싱업체와의
계약을 예정보다 일찍 끝마쳤다.
최근 다양한 분야에서 공정 무역 에 대한 관심이
커진 만큼 이에 대한 대책이 필요하다.
GPT-4 API 는 언제 나와?
python api 는 아직 공개되지 않았고
대신 알림메일을 발송해준다고 하니 등록하자.
모델 종류 | 프롬프트(질문) | 답변 |
8k | 0.03$/1k token | 0.06$/1k token |
32k | 0.06$/1k token | 0.12$/1k token |
기본 모델도 가격이 비싸지만 32k 모델은 그것보다 2배 비싸다.
참고로 gpt-3.5-turbo 는 1k 토큰당 0.002$
gpt-3.5 ( 다빈치 )는 0.02$이었다.
그리고 기본적으로 분당 토큰 40k개 & 요청 200개의 리밋이 걸려있다.
마지막으로 개발자의 라이브스 데모를 첨부하며 글을 마친다.
관련글