Non lasciare che lo spazio di archiviazione diventi il ​​collo di bottiglia principale nell'addestramento dei modelli

È stato detto che le aziende tecnologiche stanno cercando le GPU o sono sulla strada per acquisirle. Ad aprile, il CEO di Tesla Elon Musk ha acquistato 10.000 GPU e ha dichiarato che la società avrebbe continuato ad acquistarne una grande quantità da NVIDIA. Dal punto di vista aziendale, anche il personale IT sta facendo il massimo per garantire che le GPU siano costantemente utilizzate per massimizzare il ritorno sull'investimento. Tuttavia, alcune aziende potrebbero scoprire che, mentre il numero di GPU aumenta, l'inattività della GPU diventa più grave.

Se la storia ci ha insegnato qualcosa sul calcolo ad alte prestazioni (HPC), è che lo storage e la rete non dovrebbero essere sacrificati a scapito di una concentrazione eccessiva sul calcolo. Se lo storage non è in grado di trasferire in modo efficiente i dati alle unità di calcolo, anche se disponi del maggior numero di GPU al mondo, non otterrai un'efficienza ottimale.

Secondo Mike Matchett, analista di Small World Big Data, modelli più piccoli possono essere eseguiti in memoria (RAM), consentendo una maggiore attenzione al calcolo. Tuttavia, i modelli più grandi come ChatGPT con miliardi di nodi non possono essere archiviati in memoria a causa del costo elevato.

"Non è possibile inserire miliardi di nodi in memoria, quindi lo storage diventa ancora più importante", afferma Matchett. Sfortunatamente, l’archiviazione dei dati viene spesso trascurata durante il processo di pianificazione.

In generale, indipendentemente dal caso d’uso, ci sono quattro punti comuni nel processo di training del modello:

1. Formazione modello
2. Applicazione dell'inferenza
3. Archiviazione dei dati
4. Calcolo accelerato

Quando si creano e distribuiscono modelli, la maggior parte dei requisiti dà priorità a una prova di concetto rapida (POC) o ad ambienti di test per avviare la formazione del modello, mentre le esigenze di archiviazione dei dati non vengono tenute in grande considerazione.

Tuttavia, la sfida sta nel fatto che l’implementazione dell’addestramento o dell’inferenza può durare mesi o addirittura anni. Molte aziende aumentano rapidamente le dimensioni dei propri modelli durante questo periodo e l'infrastruttura deve espandersi per accogliere modelli e set di dati in crescita.

Una ricerca di Google su milioni di carichi di lavoro di formazione ML rivela che in media il 30% del tempo di formazione viene dedicato alla pipeline dei dati di input. Sebbene la ricerca passata si sia concentrata sull’ottimizzazione delle GPU per accelerare l’addestramento, rimangono ancora molte sfide nell’ottimizzazione di varie parti della pipeline di dati. Quando si dispone di una potenza di calcolo significativa, il vero collo di bottiglia diventa la velocità con cui è possibile inserire i dati nei calcoli per ottenere risultati.

Nello specifico, le sfide nell'archiviazione e nella gestione dei dati richiedono una pianificazione della crescita dei dati, che consenta di estrarre continuamente il valore dei dati man mano che si progredisce, in particolare quando ci si avventura in casi d'uso più avanzati come il deep learning e le reti neurali, che impongono requisiti più elevati storage in termini di capacità, prestazioni e scalabilità.

In particolare:

Scalabilità
L’apprendimento automatico richiede la gestione di grandi quantità di dati e, con l’aumento del volume dei dati, migliora anche la precisione dei modelli. Ciò significa che le aziende devono raccogliere e archiviare più dati ogni giorno. Quando lo storage non è scalabile, i carichi di lavoro ad uso intensivo di dati creano colli di bottiglia, limitando le prestazioni e comportando costosi tempi di inattività della GPU.

Flessibilità
Il supporto flessibile per più protocolli (inclusi NFS, SMB, HTTP, FTP, HDFS e S3) è necessario per soddisfare le esigenze di sistemi diversi, anziché essere limitato a un singolo tipo di ambiente.

Latenza
La latenza I/O è fondamentale per la creazione e l'utilizzo dei modelli poiché i dati vengono letti e riletti più volte. La riduzione della latenza I/O può ridurre il tempo di addestramento dei modelli di giorni o mesi. Uno sviluppo più rapido del modello si traduce direttamente in maggiori vantaggi aziendali.

Produttività
La produttività dei sistemi di storage è fondamentale per un addestramento efficiente del modello. I processi di formazione coinvolgono grandi quantità di dati, in genere in terabyte all'ora.

Accesso parallelo
Per ottenere un rendimento elevato, i modelli di formazione suddividono le attività in più attività parallele. Ciò significa spesso che gli algoritmi di apprendimento automatico accedono simultaneamente agli stessi file da più processi (potenzialmente su più server fisici). Il sistema di storage deve gestire richieste simultanee senza compromettere le prestazioni.

Grazie alle eccezionali funzionalità di bassa latenza, throughput elevato e I/O parallelo su larga scala, Dell PowerScale è il complemento di storage ideale per l'elaborazione accelerata da GPU. PowerScale riduce efficacemente il tempo necessario per i modelli di analisi che addestrano e testano set di dati multi-terabyte. Nello storage all-flash PowerScale, la larghezza di banda aumenta di 18 volte, eliminando i colli di bottiglia I/O, e può essere aggiunta ai cluster Isilon esistenti per accelerare e sbloccare il valore di grandi quantità di dati non strutturati.

Inoltre, le funzionalità di accesso multiprotocollo di PowerScale forniscono flessibilità illimitata per l'esecuzione dei carichi di lavoro, consentendo di archiviare i dati utilizzando un protocollo e di accedervi utilizzando un altro. Nello specifico, le potenti funzionalità, la flessibilità, la scalabilità e le funzionalità di livello aziendale della piattaforma PowerScale aiutano ad affrontare le seguenti sfide:

- Accelerare l'innovazione fino a 2,7 volte, riducendo il ciclo di formazione del modello.

- Elimina i colli di bottiglia I/O e fornisce formazione e convalida dei modelli più rapidi, maggiore accuratezza del modello, maggiore produttività della scienza dei dati e massimizzazione del ritorno sugli investimenti informatici sfruttando funzionalità di livello aziendale, prestazioni elevate, concorrenza e scalabilità. Migliora la precisione del modello con set di dati più profondi e ad alta risoluzione sfruttando fino a 119 PB di capacità di storage effettiva in un singolo cluster.

- Ottieni una distribuzione su larga scala avviando risorse di elaborazione e archiviazione su scala ridotta e indipendente, offrendo solide opzioni di protezione e sicurezza dei dati.

- Migliora la produttività della scienza dei dati con analisi sul posto e soluzioni preconvalidate per implementazioni più rapide e a basso rischio.

- Sfruttare progetti comprovati basati sulle migliori tecnologie, tra cui l'accelerazione GPU NVIDIA e le architetture di riferimento con i sistemi NVIDIA DGX. Le prestazioni elevate e la concorrenza di PowerScale soddisfano i requisiti prestazionali dello storage in ogni fase del machine learning, dall'acquisizione e preparazione dei dati all'addestramento e all'inferenza dei modelli. Insieme al sistema operativo OneFS, tutti i nodi possono operare senza problemi all'interno dello stesso cluster basato su OneFS, con funzionalità di livello aziendale come gestione delle prestazioni, gestione dei dati, sicurezza e protezione dei dati, consentendo un completamento più rapido della formazione e della convalida dei modelli per le aziende.


Orario di pubblicazione: 03-lug-2023