OpenAI는 공식 블로그 게시물에서 “복잡한 추론을 수행하기 위해 강화 학습으로 훈련된 새로운 대규모 언어 모델인 OpenAI o1을 소개합니다.”라고 밝혔습니다. “o1은 대답하기 전에 생각합니다.” AI 산업 전문가들은 최고의 AI 개발자가 몇 주 동안 새로운 “딸기” 모델을 배포할 것으로 예상했지만 개발 중인 다양한 모델 간의 차이점은 공개적으로 공개되지 않았습니다.
OpenAI에서는 이 새로운 모델 계열을 큰 도약으로 설명하며, 기존의 명명 체계를 ChatGPT-3, ChatGPT-3.5, ChatGPT-4o 시리즈에서 벗어나 변경했다고 밝혔습니다.
OpenAI는 “복잡한 추론 작업의 경우 이는 상당한 진전이며 새로운 수준의 AI 역량을 나타냅니다.”라고 말했습니다. “이를 감안하여 카운터를 1로 재설정하고 이 시리즈를 OpenAI o1이라고 명명합니다.”
이러한 새로운 모델의 작동에 있어서 핵심은 행동하기 전에 생각하는 데 “시간을 들이는 것”이며, 복잡한 작업에서 매우 효과적으로 만들기 위해 “생각의 사슬” 추론을 사용한다는 점이라고 회사는 언급했습니다.
특히, Open AI가 공유한 AI 테스트 벤치마크에 따르면, 이 새로운 라인업의 가장 작은 모델조차 여러 핵심 영역에서 최상위 GPT-4o를 능가하는 것으로 나타났습니다. 특히, OpenAI가 박사급 복잡성으로 간주되는 과제를 비교한 결과가 그렇습니다.
새로 출시된 모델은 OpenAI가 “심의적 추론”이라고 부르는 것을 강조하는데, 여기서 시스템은 내부적으로 응답을 처리하는 데 추가 시간을 사용합니다. 이 프로세스는 특히 추론이 많은 작업에서 더 사려 깊고 일관된 답변을 생성하는 것을 목표로 합니다.
OpenAI는 또한 코딩, 미적분, 데이터 분석과 같은 작업에서 GPT-4o보다 개선된 것을 보여주는 내부 테스트 결과를 발표했습니다. 그러나 이 회사는 OpenAI 01이 창의적 글쓰기와 같은 창의적 작업에서 덜 극적인 개선을 보였다고 밝혔습니다. (저희의 주관적인 테스트에 따르면 OpenAI 제품은 이러한 영역에서 Claude AI보다 뒤처졌습니다.) 그럼에도 불구하고 새로운 모델의 결과는 인간 평가자에 의해 전반적으로 좋은 평가를 받았습니다.
새로운 모델의 기능은 언급된 대로 추론 중에 사고의 사슬 AI 프로세스를 구현합니다. 간단히 말해, 이는 모델이 최종 결과를 제공하기 전에 문제를 단계별로 추론하는 데 세분화된 접근 방식을 사용함을 의미하며, 이는 궁극적으로 사용자가 보는 것입니다.
OpenAI는 o1 패밀리의 시스템 카드에서 “o1 모델 시리즈는 사고의 사슬을 사용하여 추론하도록 대규모 강화 학습으로 훈련됩니다.”라고 말합니다. “답하기 전에 사고의 사슬을 통합하도록 모델을 훈련하면 상당한 이점을 얻을 수 있는 잠재력이 있지만, 지능이 높아짐에 따라 발생할 수 있는 잠재적 위험도 증가합니다.”
이 광범위한 주장은 기술 관찰자들 사이에서 이 모델의 아키텍처의 진정한 참신성에 대한 논쟁의 여지를 남깁니다. OpenAI는 이 프로세스가 토큰 기반 생성과 어떻게 다른지 명확히 하지 않았습니다. 추론에 대한 실제 리소스 할당인가, 아니면 숨겨진 사고의 사슬 명령인가, 아니면 두 가지 기술을 섞은 것인가?
Reflection이라는 이전 오픈소스 AI 모델은 비슷한 추론 중심 접근 방식을 실험했지만 투명성이 부족하다는 비판을 받았습니다. 이 모델은 태그를 사용하여 추론 단계를 구분했으며, 개발자들은 기존 모델의 출력보다 개선되었다고 말했습니다.
세계 최고의 오픈소스 모델인 Reflection 70B를 발표하게 되어 기쁩니다.
LLM이 자신의 실수를 스스로 수정할 수 있도록 개발된 기술인 Reflection-Tuning을 사용하여 교육을 받았습니다.
사고의 사슬 과정에 더 많은 가이드라인을 포함시키면 모델이 더 정확해질 뿐 아니라, 잠재적으로 해로운 결과가 생성될 때 이를 포착할 시간과 단계가 더 많아지므로 탈옥 기술에 덜 취약해집니다.
탈옥 커뮤니티는 그 어느 때보다 효율적으로 AI 안전 제어를 우회하는 방법을 찾고 있는 듯하며, OpenAI 01의 첫 번째 성공적인 탈옥이 출시 후 몇 분 만에 보고되었습니다.
이 심의 추론 접근 방식이 빠른 응답 시간을 필요로 하는 실시간 애플리케이션에 효과적으로 확장될 수 있는지는 불분명합니다. OpenAI는 그동안 웹 검색 기능과 개선된 멀티모달 상호 작용을 포함하여 모델의 기능을 확장할 계획이라고 밝혔습니다.
이 모델은 또한 안전성, 탈옥 방지 및 자율성 측면에서 OpenAI의 최소 기준을 충족하도록 시간이 지남에 따라 조정될 것입니다.
이 모델은 오늘 출시될 예정이지만, 일부 사용자가 아직 모델을 테스트할 수 없다고 보고함에 따라 단계적으로 출시될 가능성이 있습니다.
OpenAI의 발표에 따르면 가장 작은 버전은 결국 무료로 제공될 예정이며 API 액세스는 OpenAI o1-preview보다 80% 저렴할 예정입니다. 하지만 너무 기대하지 마세요. 현재 01-preview의 경우 이 새로운 모델을 테스트하기 위해 주당 30개 메시지만 제공하고 o1-mini의 경우 50개 메시지를 제공하므로 프롬프트를 현명하게 선택하세요.