GitHub e le sfide di scalabilità: l'impatto dell'AI sulla disponibilità del servizio

L'onda dell'AI mette alla prova GitHub

Negli ultimi mesi, GitHub ha registrato significative difficoltà nella disponibilità dei suoi servizi. La piattaforma di condivisione codice, un pilastro per milioni di sviluppatori, sta subendo l'impatto di un traffico in forte crescita, alimentato in larga parte dall'adozione diffusa di strumenti di coding assistiti dall'intelligenza artificiale e dai nuovi workflow di sviluppo "agentic". Questo incremento ha messo a dura prova l'infrastruttura esistente, rendendo la stabilità del servizio una sfida costante.

Per affrontare queste problematiche, GitHub ha intrapreso un'ambiziosa strategia di espansione della capacità e di migrazione di un numero crescente di carichi di lavoro verso l'infrastruttura Azure di Microsoft. Nonostante questi sforzi, la situazione non si è ancora stabilizzata. Il report di disponibilità di GitHub per maggio 2026 ha riconosciuto nove incidenti che hanno degradato le performance, un leggero miglioramento rispetto ai dieci di aprile, ma il percorso verso una piena affidabilità è ancora lungo.

Scalabilità e migrazione: una corsa contro il tempo

La portata della sfida di scalabilità è evidente nei numeri. Sebbene GitHub avesse inizialmente previsto un'espansione della capacità di dieci volte nell'ottobre 2025, già a febbraio 2026 era chiaro che sarebbe stata necessaria un'espansione di trenta volte per gestire l'enorme volume di pull request, commit e nuovi repository. L'anno scorso, GitHub ha gestito un miliardo di commit in un intero anno; oggi, ne riceve 1,4 miliardi ogni mese.

Jakub Oleksy, SVP of Software Engineering di GitHub, ha dichiarato nel report che l'azienda sta implementando "cambiamenti strutturali che eliminano permanentemente le modalità di fallimento". Ha anche sottolineato i progressi nella migrazione: "Attualmente serviamo il 40% del traffico del monolite da Azure (dall'8% di febbraio), con il traffico Git al 30% e la replica dei repository al 99%". Questi sforzi hanno permesso di raddoppiare la capacità effettiva in soli quattro mesi. Tuttavia, la disponibilità rimane un punto critico, in parte perché anche Azure ha recentemente affrontato problemi di capacità.

Le sfide della misurazione e i trade-off del cloud

La percezione della disponibilità del servizio varia notevolmente a seconda della fonte. Mentre la pagina di stato ufficiale di GitHub riporta cifre di uptime vicine al 99,9% per i servizi elencati, progetti indipendenti come "The Missing GitHub Status Page" offrono una prospettiva diversa. Questo progetto non ufficiale ha registrato dodici incidenti a maggio e un uptime medio dell'87,26% negli ultimi novanta giorni, con valori del 78,33% ad aprile, 93,86% a maggio e 88,39% per giugno finora. La stessa pagina di cronologia degli incidenti di GitHub cita 26 incidenti ad aprile, 23 a maggio e 12 a giugno. Questa discrepanza evidenzia la complessità nel definire e misurare la "disponibilità" in ambienti distribuiti.

Questi episodi sottolineano le complessità della gestione di infrastrutture su larga scala, specialmente quando si integrano carichi di lavoro AI ad alta intensità. Per le aziende che valutano il deployment di Large Language Models (LLM) o altri carichi di lavoro AI, la scelta tra soluzioni self-hosted e servizi cloud comporta trade-off significativi. Mentre il cloud offre scalabilità apparente e riduzione dell'investimento iniziale (CapEx), le sfide di capacità e i costi operativi (OpEx) a lungo termine, insieme alle preoccupazioni sulla sovranità dei dati, possono spingere verso soluzioni on-premise. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi vincoli e le implicazioni sul Total Cost of Ownership (TCO).

Prospettive future e controllo dell'infrastruttura

Gli sforzi di GitHub per isolare il cluster del database primario, spostando utenti, autenticazione e autorizzazione in domini separati, mirano a prevenire guasti a cascata che potrebbero compromettere l'intero sistema. Questa strategia, sebbene promettente, non ha ancora risolto completamente le sfide di disponibilità. La necessità di gestire un volume di dati e richieste senza precedenti, unita alle dipendenze da infrastrutture cloud esterne che a loro volta affrontano problemi di capacità, crea un ambiente operativo complesso.

La situazione di GitHub funge da monito per le organizzazioni che dipendono da servizi esterni per le loro pipeline di sviluppo critiche. La capacità di mantenere il controllo sull'infrastruttura sottostante, o almeno di diversificare le dipendenze, diventa un fattore chiave per mitigare i rischi e garantire la continuità operativa. La ricerca di soluzioni che bilancino scalabilità, affidabilità e controllo dei costi rimane una priorità assoluta nel panorama tecnicico attuale.