GPT-4 뭐가 달라 졌을까?

You are currently viewing GPT-4 뭐가 달라 졌을까?

GPT-4 가 발표됐다는 소식을 듣고

간단하게 분석 글을 작성한다.

현재 GPT-4 는 유료 서비스인 ChatGPT plus

구독자에게만 제공되고 있다.

크게 달라진 점을 선요약 하자면 다음과 같다.

  • 이미지에 대한 입력이 가능해짐
  • 다양한 종류의 시험에서 성적이 향상됨
  • 다양한 벤치마크에서의 성능이 향상됨
  • 차별적이고 유해한 컨텐츠를 걸러내는 기능이 강화됨

많은 전문가들이 GPT-4의 parameter 수 는

GPT-3 / 3.5 와 큰 차이 없을 것으로 본다.

Parameter 를 증가시켜서 얻을 수 있는 이득이

증가할 computational cost 에 비해 크지 않기 때문일 것이다.

따라서 질의 응답 성능에서는 큰 개선을 느끼기 어려운 대신

일부 기능이 강화되거나 추가되었다.

참고로 GPT-4 역시 대부분 21년 9월까지의

데이터들로 학습되었다.

그러므로 학습되지 않았을만한 내용이나

추론하기 어려운 내용을 묻고 실망하지 말자.

몇번이나 이야기하지만 GPT-4 에

입력되지 않은 정보에 제대로 답할 수 없다.

GPT-4 특징 자세히 설명해봐

효율적인 성능 예측이 가능해짐

GPT-4 논문 가장 앞에 나오는 개선점 이며

그만큼 주요한 포커스 중 하나 이다.

gpt-4 graph

연구진은 위 그래프를 통해 computing cost 와 loss 사이의

간단한 상관관계를 구할 수 있었다.

GPT-3~4 에 해당하는 모델들은 Computing cost 가

너무 크기때문에 알고리즘 평가, Fine tuning 이 효율적으로 이루어지기 어렵다.

반면, 이러한 상관관계를 이용한다면 Computing cost 가

1000~10000배 적은 모델로 원본 모델의 성능을 예측할 수 있다.

즉, GPT-4 는 소형 모델을 이용해 같은 자원으로

더 많은 알고리즘 및 Fine tuning 을 평가할 수 있다.

이 방법을 이용했기때문에 비교적 짧은 시간 안에

GPT-4 가 나올 수 있었을 것이다.

이렇듯 향후 개선을 위해 가장 중요한 포인트 인데

아직까지 제대로 설명한 기사나 분석글 은 없었다.

참고로 openai 의 모델에 대해 보다 효율적인 벤치마킹을

할 수 있도록 evals 라는 프레임워크를 오픈소스 로 공개했다.

해당 툴을 이용해 일반 사용자들도 자유롭게

새로운 평가 기준, 방법을 제시할 수 있다.

추론 성능이 강화됨

gpt-4 exam

위 그래프에서 볼 수 있듯이 대다수의 시험에서

성적이 개선되었다.

정확히 어떤 부분이 개선되었는지는

다음 예제를 통해 유추할 수 있다.

GPT-3.5GPT-4
질문
Andrew is free from 11 am to 3 pm, Joanne is free from noon to 2 pm and then 3:30 pm to 5 pm. Hannah is available at noon for half an hour, and then 4 pm to 6 pm. What are some options for start times for a 30 minute meeting for Andrew, Hannah, and Joanne?
동일
답변
Here is a list of their availability: – Andrew: 11 am to 3 pm – Joanne: noon to 2 pm, and 3:30 pm to 5 pm – Hannah: noon to 12:30 pm, and 4 pm to 6 pm Based on their availability, there is a 30-minute window where all three of them are available, which is from 4 pm to 4:30 pm. So, the meeting can be scheduled at 4 pm.
답변
Andrew: 11 am – 3 pm Joanne: 12 pm – 2 pm, 3:30 pm – 5 pm Hannah: 12 pm – 12:30 pm, 4 pm – 6 pm Common availability for a 30-minute meeting: 12 pm – 12:30 pm

같은 질문에 대해 GPT-3.5 는 그럴듯하지만 틀린 답을

GPT-4 는 정확한 답을 내놓았다.

이 예제에서 볼 수 있듯이 GPT 모델은 실제로

지능이 있는 건 아니기 때문에 추론 문제에 취약했다.

정확한 방법은 설명 되지 않았지만 GPT-4 에서는

특정 유형의 추론 문제에 대해 학습이 이루어진 것으로 보인다.

따라서 학습된 형태의 문제에 대해서는

비교적 정확한 답변이 가능하다.

이미지 에 대한 입력이 가능해짐

질문) What is funny about this image? Describe it panel by panel.

gpt-4 visualinput
GPT-4 답변)
The image shows a package for a “Lightning Cable” adapter with three panels.
Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.
Panel 2: The package for the “Lightning Cable” adapter with a picture of
a VGA connector on it.
Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end.
The humor in this image comes from the absurdity of plugging a large,
outdated VGA connector into a small, modern smartphone charging port.

VGA 커넥터의 외관을 사용한 라이트닝 케이블 사진을

어느정도 이해하고 설명했다.

이외에도 간단한 문제의 diagram 이나

카툰 에 대한 분석, 답변이 가능하다.

이와 같이 GPT-4는 사진 상 물체의 classification & location

가능하고 이를 통해 상황을 추론할 수 있다.

물론, 이번에 도입되는 기능인 만큼 일부 데이터셋 에서는

현재 최고 기술 보다 성능이 떨어진다.

8개의 데이터셋에 대해 accuracy가 평균적으로 68%에서 76%로 향상되었으나

2개의 데이터 셋에서는 7% 가량 하락하였다.

다양하게 활용할 수 있겠지만

선공개된 기능에는 포함되지 않았다.

이외의 소소한 개선

입력가능한 토큰이 최대 8k개로 증대 되었고

별도 모델을 사용할 경우 최대 32k개 (단어 25k개)까지 가능하다.

예전보다 긴 문서의 번역이나 요약에 활용할 수 있다.

보다 세세한 역할 부여가 가능해졌다.

예제에서는 답을 직접적으로 알려주지 않는튜터,

셰익스피어처럼 말하는 해적 등을 보여주었다.

마지막으로 필터링 우회를 방지하기 위한 기술이 추가되었다.

상당 수 막은것으로 보이나 아직 완벽하지는 않다.

그럼 GPT-4 의 한계점은 뭐야?

거짓 답변을 내놓는 Hallucination 에 대한 성능이

개선되었지만 아직 완전히 잡지는 못했다고 한다.

참고로 GPT-4 역시 대부분 21년 9월까지의

이야기도 있다.

참고로 GPT-4 역시 대부분 21년 9월까지의

데이터들로 학습되었다.

그러므로 학습되지 않았을 내용이나 추론하기 어려운 내용을 물으면

당연히 이상한 답변이 나온다.

GPT-4 의 성능이 안좋거나 한계점 이 아니라

그냥 사용자가 이상한 질문을 한것이다.

참고로 다국어 입력에 대한 성능도 강화되었지만

성능차이는 여전하기때문에 가능하면 영어로 질문하라.

유해하거나 차별적, 공격적인 컨텐츠에 대한

필터링이 강화되었으나 문제는 그 과정에 있다.

타임지에 따르면 해당 작업은 케냐의 노동자들에게

아웃소싱되었고 2$의 시급이 지불되었다.

케냐의 평균 임금과 비교했을 때 시급이 높은 편이지만

업무강도 및 정신적 고통이 상당했다고 한다.

기존에는 텍스트만 판별했다면 2월부터는 유해 이미지까지

판별하게 만들어 고통이 가중되었다.

결국, openAI 는 해당 아웃 소싱업체와의

계약을 예정보다 일찍 끝마쳤다.

최근 다양한 분야에서 공정 무역 에 대한 관심이

커진 만큼 이에 대한 대책이 필요하다.

GPT-4 API 는 언제 나와?

python api 는 아직 공개되지 않았고

대신 알림메일을 발송해준다고 하니 등록하자.

모델 종류프롬프트(질문) 답변
8k0.03$/1k token0.06$/1k token
32k0.06$/1k token0.12$/1k token

기본 모델도 가격이 비싸지만 32k 모델은 그것보다 2배 비싸다.

참고로 gpt-3.5-turbo 는 1k 토큰당 0.002$

gpt-3.5 ( 다빈치 )는 0.02$이었다.

그리고 기본적으로 분당 토큰 40k개 & 요청 200개의 리밋이 걸려있다.

마지막으로 개발자의 라이브스 데모를 첨부하며 글을 마친다.


관련글

Leave a Reply