AOI: Diagnosi autonoma nel cloud tramite apprendimento dagli errori

La gestione dell'infrastruttura cloud richiede sistemi di diagnostica sempre piรน sofisticati. AOI (Autonomous Operations Intelligence) รจ un framework che affronta questa sfida, sfruttando i fallimenti operativi come opportunitร  di apprendimento per gli agenti di intelligenza artificiale.

AOI si propone di automatizzare attivitร  di Site Reliability Engineering (SRE) tramite LLM, superando le limitazioni di accesso ai dati proprietari, l'esecuzione non sicura di azioni e l'incapacitร  di migliorare dai fallimenti.

Componenti chiave di AOI

  1. Sistema di diagnostica addestrabile: Utilizza Group Relative Policy Optimization (GRPO) per trasferire la conoscenza di esperti in modelli open-source distribuiti localmente, consentendo l'apprendimento basato sulle preferenze senza esporre dati sensibili.
  2. Architettura di esecuzione con separazione read-write: Divide le traiettorie operative in fasi di osservazione, ragionamento e azione, garantendo un apprendimento sicuro e prevenendo modifiche non autorizzate dello stato.
  3. Evolver per traiettorie di errore: Analizza le traiettorie non riuscite e le trasforma in segnali di supervisione correttiva, consentendo un aumento continuo dei dati.

Risultati

Valutato sul benchmark AIOpsLab, AOI ha dimostrato miglioramenti significativi:

  • L'esecuzione di AOI raggiunge un successo best@5 del 66,3% su 86 attivitร , superando il precedente stato dell'arte (41,9%).
  • L'aggiunta del training Observer GRPO, con un modello da 14B distribuito localmente, raggiunge una media del 42,9% avg@1 su 63 attivitร  con tipologie di errore sconosciute, superando Claude Sonnet 4.5.
  • L'Evolver converte 37 traiettorie fallite in guida diagnostica, migliorando l'avg@5 end-to-end di 4,8 punti e riducendo la varianza del 35%.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste opzioni.