OpenAI ha introdotto una nuova famiglia di modelli e li ha resi disponibili giovedì con il suo abbonamento a pagamento ChatGPT Plus, sostenendo che apportano notevoli miglioramenti in termini di prestazioni e capacità di ragionamento.
“Stiamo introducendo OpenAI o1, un nuovo modello linguistico di grandi dimensioni addestrato con apprendimento per rinforzo per eseguire ragionamenti complessi”, ha affermato OpenAI in un post ufficiale del blog, “o1 pensa prima di rispondere”. Gli osservatori del settore dell'intelligenza artificiale si aspettavano che il principale sviluppatore di intelligenza artificiale distribuisse un nuovo modello “a fragola” da settimane, sebbene le distinzioni tra i diversi modelli in fase di sviluppo non siano state divulgate pubblicamente.
OpenAI descrive questa nuova famiglia di modelli come un grande balzo in avanti, tanto che ha dovuto modificare il suo consueto schema di denominazione, discostandosi dalle serie ChatGPT-3, ChatGPT-3.5 e ChatGPT-4o.
“Per compiti di ragionamento complessi, questo è un progresso significativo e rappresenta un nuovo livello di capacità di intelligenza artificiale”, ha affermato OpenAI. “Dato questo, stiamo reimpostando il contatore a uno e chiamando questa serie OpenAI o1”.
La chiave del funzionamento di questi nuovi modelli è che “si prendono il loro tempo” per pensare prima di agire, ha osservato l’azienda, e utilizzano il ragionamento “a catena di pensiero” per renderli estremamente efficaci in compiti complessi.
In particolare, anche il modello più piccolo di questa nuova gamma supera il GPT-4o di fascia alta in diverse aree chiave, secondo i benchmark dei test di intelligenza artificiale condivisi da Open AI, in particolare i confronti di OpenAI sulle sfide considerate di complessità pari a quella di un dottorato di ricerca.
I modelli appena rilasciati sottolineano ciò che OpenAI chiama “ragionamento deliberativo”, in cui il sistema impiega più tempo per elaborare internamente le sue risposte. Questo processo mira a produrre risposte più ponderate e coerenti, in particolare in attività che richiedono molto ragionamento.
OpenAI ha anche pubblicato risultati di test interni che mostrano miglioramenti rispetto a GPT-4o in attività quali codifica, calcolo e analisi dei dati. Tuttavia, l'azienda ha rivelato che OpenAI 01 ha mostrato miglioramenti meno drastici in attività creative come la scrittura creativa. (I nostri test soggettivi hanno posizionato le offerte OpenAI dietro Claude AI in queste aree.) Tuttavia, i risultati del suo nuovo modello sono stati valutati complessivamente bene dai valutatori umani.
Le capacità del nuovo modello, come notato, implementano il processo AI a catena di pensiero durante l'inferenza. In breve, ciò significa che il modello utilizza un approccio segmentato per ragionare su un problema passo dopo passo prima di fornire un risultato finale, che è ciò che gli utenti vedono in ultima analisi.
“La serie di modelli o1 è addestrata con apprendimento di rinforzo su larga scala per ragionare usando una catena di pensiero”, afferma OpenAI nella scheda di sistema della famiglia o1. “Addestrare i modelli a incorporare una catena di pensiero prima di rispondere ha il potenziale di sbloccare vantaggi sostanziali, aumentando al contempo i potenziali rischi derivanti da un'intelligenza accresciuta”.
L'ampia affermazione lascia spazio al dibattito sulla vera novità dell'architettura del modello tra gli osservatori tecnici. OpenAI non ha chiarito in che modo il processo si discosti dalla generazione basata su token: è un'effettiva allocazione di risorse al ragionamento o un comando nascosto di catena di pensiero, o forse una miscela di entrambe le tecniche?
Un precedente modello di IA open source chiamato Reflection aveva sperimentato un approccio simile basato sul ragionamento, ma era stato criticato per la sua mancanza di trasparenza. Quel modello utilizzava tag per separare i passaggi del suo ragionamento, portando a quello che i suoi sviluppatori hanno definito un miglioramento rispetto agli output dei modelli convenzionali.
Sono entusiasta di annunciare Reflection 70B, il miglior modello open source al mondo.
Formazione basata sul Reflection-Tuning, una tecnica sviluppata per consentire agli LLM di correggere i propri errori.
La prossima settimana arriverà il 405B: ci aspettiamo che sia il miglior modello al mondo.
L'integrazione di più linee guida nel processo di pensiero non solo rende il modello più accurato, ma anche meno soggetto a tecniche di jailbreaking, poiché ha più tempo (e passaggi) per individuare quando viene prodotto un risultato potenzialmente dannoso.
La comunità di jailbreaker sembra essere più efficiente che mai nel trovare modi per aggirare i controlli di sicurezza dell'intelligenza artificiale: i primi jailbreak riusciti di OpenAI 01 sono stati segnalati pochi minuti dopo il suo rilascio.
Non è ancora chiaro se questo approccio di ragionamento deliberativo possa essere efficacemente ridimensionato per applicazioni in tempo reale che richiedono tempi di risposta rapidi. OpenAI ha affermato che nel frattempo intende espandere le capacità dei modelli, tra cui funzionalità di ricerca web e interazioni multimodali migliorate.
Nel tempo, il modello verrà inoltre modificato per soddisfare gli standard minimi di OpenAI in termini di sicurezza, prevenzione del jailbreak e autonomia.
Il modello avrebbe dovuto essere lanciato oggi, ma potrebbe essere rilasciato in più fasi, poiché alcuni utenti hanno segnalato che il modello non è ancora disponibile per i test.
La versione più piccola sarà alla fine disponibile gratuitamente e l'accesso all'API sarà più economico dell'80% rispetto a OpenAI o1-preview, secondo l'annuncio di OpenAI. Ma non esaltatevi troppo: attualmente c'è una tariffa settimanale di soli 30 messaggi a settimana per testare questo nuovo modello per 01-preview e 50 per o1-mini, quindi scegliete i vostri prompt con saggezza.
Generalmente intelligente Notiziario
Un viaggio settimanale nell'intelligenza artificiale narrato da Gen, un modello di intelligenza artificiale generativa.