ML_AI/AI Tool 정리

2024년 5월 중순 이후의 최신 LLM 모델 정리

안정민 2024. 7. 3. 12:50

GPT-4o (OpenAI, 24년 5월 13일 출시)


(1) 모델 아키텍처

GPT-4o는 텍스트, 비전 및 오디오 입력으로 훈련된 단일 신경망을 End to End로 훈련한 최초의 모든 Modality 결합 모델이다.

서로 다른 데이터 유형에 대해 별도의 모델을 학습하여 별도로 관리하는 기존 기술과 차이점을 보인다.

즉, 이 모델은 하나의 신경망을 활용한 Generation을 진행하기 때문에 텍스트, 오디오, 이미지, 비디오가 혼합된 Prompt를 허용하게 된다는 뜻이다.

 

(2) 성능 비교 (벤치 마크 테스트 데이터 결과)

https://openai.com/index/hello-gpt-4o/

6개의 벤치마크 결과가 사용되었습니다.

  • 대규모 Multitask 언어 이해 (MMLU). 초등 수학, 미국 역사, 컴퓨터 과학, 법률 등에 대한 과제. 이 테스트에서 높은 정확도를 얻으려면 모델은 광범위한 세계 지식과 문제 해결 능력을 보유해야 합니다.
  • 대학원 수준의 Google-Proof Q&A (GPQA). 생물학, 물리학, 화학 분야의 도메인 전문가가 작성한 객관식 문제입니다. 이 문제는 고품질이고 매우 어렵습니다. 해당 도메인에서 박사 학위를 취득했거나 취득 중인 전문가는 74%의 정확도를 달성합니다.
  • 수학 . 중학교와 고등학교 수학 문제.
  • HumanEval . 컴퓨터 코드의 기능적 정확성을 테스트하는 것으로, 코드 생성을 확인하는 데 사용됩니다.
  • 다국어 초등학교 수학 (MSGM). 10개 언어로 번역된 초등학교 수학 문제, 여기에는 벵골어와 스와힐리어와 같은 표현이 부족한 언어도 포함됩니다.
  • 단락에 대한 이산적 추론 (DROP). 완전한 단락을 이해해야 하는 질문입니다. 예를 들어, 여러 문장에 걸쳐 분산된 값을 더하거나, 세거나, 정렬하는 것과 같습니다.

6개의 LLM 벤치 마크에 대한 GPT-4o, GPT-4 Turbo, Gemini Pro 1.5, Claude 3 Opus의 성능. 각 벤치 마크의 점수는 0~100점입니다. OpenAI에서 제공한 데이터에서 재생성되었습니다. GPQA 벤치 마크의 경우 Gemini Pro 1.5에 대한 데이터는 제공되지 않았습니다.

GPT-4o는 4개의 벤치 마크에서 최고 점수를 받았지만, MSGM 벤치 마크에서는 Claude 3 Opus에, DROP 벤치 마크에서는 GPT-4 Turbo에 밀림. 전반적으로 이 성능은 인상적이며, Multi-Modal 트레이닝의 새로운 접근 방식에 대한 희망을 보여줌

GPT-4o 수치를 GPT-4 Turbo와 비교해 자세히 살펴보면 성능 ​​향상이 몇 퍼센트에 불과하다는 것을 알 수 있다. 인상적인 향상은 맞으나 GPT-1에서 GPT-2나 GPT-2에서 GPT-3으로의 극적인 성능 향상과는 거리가 멈.

전반적으로 GPT-4o의 성능은 인상적이며 다중 모드 훈련의 새로운 접근 방식에 대한 가능성을 보여줍니다.

 

(4) 장단점 분석

주요 강점 (GPT-4와의 비교) 주요 약점
  1. 강한 문단 구성력과 개선된 UX
 
원래는 내용에 관계없이 줄글을 길게 이어갔습니다. 하지만 옴니의 경우, 조금 형편없을지 언정 임의로 제목을 지어주고 스토리 내용마다 걸맞게 부제목을 달아줍니다.
gpt-4는 고작 네 문단 정도로 충실하게 입력된 스토리만 출력해주고 있습니다. 그러나 언뜻봐도 옴니의 경우 앞으로 있을 소설의 내용을 추론해서 쓸 소재를 추천
문단의 흐름 또한 어색함 없이 일반적인 무협소설에서 등장할 법한 전개를 제시

2. 부자연스러운 표현 일체 개선


 
인공지능은 3인칭보다 1인칭으로 글을 쓸 때 비교적 더 부자연스러움. 일인칭 주인공 시점의 소설이 작성 난이도가 더 높음을 감안하여 실험 진행
gpt-4의 경우 1인칭 시점으로 바꾸자마자 면접에서 떨어져서 좌절하게 됐다는 아주 중요한 내용을 잊어버리며 생략시킴, 그러나 옴니의 경우 명확하게 처음부터 사건을 파악하고 전개를 시작.
나아가 보다 복잡한 감정을 행동과 연결지어서 길게 쓸 수 있게 됨
  1. 프레임워크 우려 사항
프레임워크는 4가지 우려 영역을 테스트합니다.
  • 사이버 보안 . AI가 사이버 범죄자의 생산성을 높이고 악용을 만드는 데 도움이 될 수 있을까?
  • BCRN . AI가 전문가들이 생물학적, 화학적, 방사선적 또는 핵적 위협을 만드는 데 도움을 줄 수 있습니까?
  • 설득 . AI가 사람들이 믿음을 바꾸도록 설득하는 (잠재적으로 상호작용적인) 콘텐츠를 만들 수 있습니까?
  • 모델 자율성 . AI가 에이전트 역할을 하여 다른 소프트웨어와 함께 작업을 수행할 수 있습니까?
각 우려 영역은 낮음, 보통, 높음, 심각으로 평가되며, 모델의 점수는 4개 범주에 대한 등급 중 가장 높은 점수입니다.
OpenAI는 심각한 우려 사항이 있는 모델을 출시하지 않겠다고 약속했지만, 이는 상대적으로 낮은 안전 기준입니다. 정의에 따르면 심각한 우려 사항은 인간 문명을 뒤집을 만한 것에 해당합니다. GPT-4o는 이를 편안하게 피하며 중간 우려 사항을 평가합니다.


  1. 오디오 딥페이크의 가속화된 위험
OpenAI 발표에서는 "GPT-4o의 오디오 모달리티가 다양한 새로운 위험을 나타낸다는 것을 알고 있습니다."라고 언급합니다. 여러 면에서 GPT-4o는 AI가 유명인, 정치인, 사람들의 친구 및 가족을 사칭하는 딥페이크 사기 전화 의 증가를 가속화할 수 있습니다 . 이 문제는 해결되기 전까지 악화될 뿐이며, GPT-4o는 딥페이크 사기 전화를 더욱 설득력 있게 만들 수 있는 힘을 가지고 있습니다.
이러한 위험을 완화하기 위해 오디오 출력은 사전 설정된 음성으로만 제공됩니다.
아마도 기술에 능숙한 사기꾼은 GPT-4o를 사용하여 텍스트 출력을 생성한 다음 자신만의 텍스트-음성 변환 모델을 사용할 수 있겠지만, 그래도 GPT-4o가 제공하는 지연 시간과 음성 톤의 이점을 얻을 수 있는지는 불확실합니다.

 

Claude 3.5 Sonnet (Anthropic, 24년 6월 21일 출시)

 

(1) 주요 특징

  • Claude 3 Opus보다 두 배 빠른 속도로 작동
  • 성능 향상과 비용 효율적인 가격이 결합되어 Claude 3.5 Sonnet이 상황에 맞는 고객 지원 및 다단계 워크플로 조정과 같은 복잡한 작업을 처리하는 데 완벽한 AI 모델이 됨
  • 사용자가 Claude와 상호 작용하는 방식을 확장하는 Artifacts 기능이 존재한다 . 이 전에 없던 기능은 대화 옆에 전용 창을 제공한다. 코드 조각, 텍스트 문서 또는 웹 디자인과 같은 콘텐츠를 생성하는 동안 사용자는 이제 출력의 미리보기를 볼 수 있다.
  • Claude 3.5 Sonnet이 사운드 재생이 가능하다. Reshi는 게시물에서 Anthropic AI 모델이 Eleven Labs API를 사용하여 기능적인 AI 사운드 효과 생성기 앱을 만들어냄.

 

(2) 성능 비교 (벤치마크 테스트 데이터 결과)

내부 에이전트 코딩 평가 에서 Claude 3.5 Sonnet은 문제의 64%를 해결하여 38%를 해결한 Claude 3 Opus보다 성능이 우수했습니다. 당사 평가는 원하는 개선 사항에 대한 자연어 설명이 주어졌을 때 모델의 버그 수정 또는 오픈 소스 코드베이스에 기능 추가 능력을 테스트합니다. 관련 도구가 제공되고 지시를 받으면 Claude 3.5 Sonnet은 정교한 추론 및 문제 해결 기능으로 코드를 독립적으로 작성, 편집 및 실행할 수 있습니다. 코드 변환을 쉽게 처리하여 레거시 애플리케이션을 업데이트하고 코드베이스를 마이그레이션하는 데 특히 효과적입니다.

 

(3) 주요 강점 분석

시각적 처리 및 이해 – Claude 3.5 Sonnet는 이미지 처리, 특히 차트 및 그래프 해석에서 놀라운 능력을 보여줍니다. 불완전한 이미지에서 텍스트를 정확하게 기록하여 텍스트만 사용하는 것보다 많은 인사이트를 그래픽 또는 일러스트레이션에서 얻을 수 있습니다. 이는 소매, 물류 및 금융 서비스와 같은 산업의 핵심 기능입니다. Claude 3.5 Sonnet를 사용하여 시각적 데이터 처리 작업을 자동화하고, 중요한 정보를 추출하고, 데이터 분석 파이프라인을 개선할 수 있습니다.

글쓰기 및 콘텐츠 생성 – Claude 3.5 Sonnet는 뉘앙스와 유머를 이해하는 능력이 크게 향상되었습니다. 이 모델은 보다 자연스럽고 인간적인 어조로 더욱 사실적이고 공감할 수 있는 고품질 글쓰기 콘텐츠를 생성합니다. 이 모델을 사용하여 몰입적이고 매력적인 콘텐츠를 생성하고, 글쓰기 워크플로를 간소화하고, 스토리텔링 능력을 향상할 수 있습니다.

고객 지원 및 자연어 처리 – Claude 3.5 Sonnet는 상황에 대한 이해가 향상되고 다단계 워크플로 오케스트레이션을 통해 복잡한 고객 문의를 처리하는 데 탁월합니다. 이 기능을 통해 24시간 지원, 더 빠른 응답 시간, 보다 자연스러운 상호 작용이 가능하여 궁극적으로 고객 만족도가 향상됩니다. 이 모델을 사용하여 고객 지원 프로세스를 자동화 및 개선하고 최종 사용자에게 원활한 경험을 제공할 수 있습니다. 유사한 구현의 예를 보려면 DoorDash가 Amazon Bedrock에서 Anthropic의 Claude 3 모델을 사용하여 생성형 AI 셀프 서비스 고객 센터 솔루션을 구축한 방법을 참조하세요.

분석 및 인사이트 – Claude 3.5 Sonnet는 비정형 데이터를 손쉽게 탐색하고 여러 도구를 사용하여 인사이트를 생성함으로써 데이터 과학에서 인간의 전문성을 강화합니다. 비즈니스 전략부터 실시간 제품 동향에 이르기까지 고품질 통계 시각화 및 실행 가능한 예측을 제공합니다. Claude 3.5 Sonnet를 사용하여 데이터 분석 워크플로를 간소화하고, 귀중한 인사이트를 발견하고, 데이터 기반 의사 결정을 촉진할 수 있습니다.

코딩 및 소프트웨어 개발 – Claude 3.5 Sonnet는 관련 도구가 함께 제공되면 정교한 추론 및 문제 해결 기능을 통해 코드를 독립적으로 작성, 편집, 실행할 수 있습니다. Claude 3.5 Sonnet를 사용하여 개발자 워크플로를 간소화하고, 코딩 작업을 가속화하고, 수동 작업을 줄이고, 전반적인 생산성을 향상할 수 있습니다.

 

 

Gemma 2 (Google, 24년 6월 27일 출시)

(1) 모델 아키텍처

  1. 원래의 트랜스포머 디코더 아키텍처("Attention Is All You Need" 논문에서 발췌)를 기반으로 하며, 아래와 같은 개선 사항이 적용.
  2. 원래의 멀티 헤드 어텐션 대신 멀티 쿼리 어텐션.
  3. 각 계층에 RoPE 임베딩을 사용하여 입력과 출력에서 ​​공유하여 모델 크기를 줄임
    ReLU 대신 GeGLU 활성화.
  4. 정규화기 위치: RMSNorm을 사용하여 각 트랜스포머 하위 계층의 입력과 출력을 모두 정규화.
  • Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술로 구축된 가볍고 최첨단의 오픈 모델 제품군
  • Google DeepMind와 Google의 다른 팀에서 개발한 Gemma는 Gemini에서 영감을 받았으며, 이름은 "보석"을 의미하는 라틴어 gemma를 반영
  • 이 팀은 두 가지 크기의 모델(20억 개와 70억 개의 매개변수)을 출시했으며 사전 학습된 체크포인트와 미세 조정된 체크포인트를 모두 제공
  • 개발자 혁신과 책임 있는 사용을 지원하기 위해 Google은 모델과 함께 Responsible Generative AI Toolkit도 제공합니다. 이 툴킷에는 Gemma로 더 안전한 AI 애플리케이션을 만드는 데 필수적인 도구가 포함되어 있으며 개발자에게 지침과 지원을 제공합니다.

 

(2) 훈련 데이터

  • Gemini의 SentencePiece 토크나이저의 수정된 하위 집합을 사용하여 웹 문서, 수학 및 코드의 영어 데이터로 학습했습니다. 정렬을 개선하기 위해 필터링이 수행됩니다.
  • SFT(Supervised Fine-Tuning)와 RLHF(Reinforcement Learning from Human Feedback)를 사용
  • 다음은 핵심 매개변수이다

 

 

(3) 성능 비교 (벤치마크 테스트 데이터 결과)

  • Gemma 2와 이전 Open LLM 리더보드 벤치마크에서 다양한 공개 LLM의 성능을 비교한 표이다. Open LLM Leaderboard 에 따른 벤치마크 데이터셋 테스트 결과이다
  • Gemma 모델은 언어 이해, 추론 및 안전성에 대한 학술적 벤치마크에서 강력한 성능을 보임
  • Gemma는 18개의 텍스트 기반 작업 중 11개에서 비슷한 크기의 오픈 모델보다 성능이 뛰어나다고 주장하며, 이는 모델 개발에 대한 자세한 설명과 함께 모델의 안전성 및 책임 측면에 대한 포괄적인 평가를 제공
  • https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
 

Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard

 

huggingface.co