Non lasciare che lo storage diventi il ​​principale collo di bottiglia nell'addestramento dei modelli

È stato detto che le aziende tecnologiche stanno lottando per le GPU o sono sulla strada per acquisirle.Ad aprile, il CEO di Tesla Elon Musk ha acquistato 10.000 GPU e ha dichiarato che la società avrebbe continuato ad acquistare una grande quantità di GPU da NVIDIA.Anche dal punto di vista aziendale, il personale IT si sta impegnando al massimo per garantire che le GPU siano costantemente utilizzate per massimizzare il ritorno sull'investimento.Tuttavia, alcune aziende potrebbero scoprire che mentre il numero di GPU aumenta, l'inattività della GPU diventa più grave.

Se la storia ci ha insegnato qualcosa sul calcolo ad alte prestazioni (HPC), è che l'archiviazione e il networking non dovrebbero essere sacrificati a scapito di concentrarsi troppo sul calcolo.Se lo storage non è in grado di trasferire in modo efficiente i dati alle unità di calcolo, anche se disponi del maggior numero di GPU al mondo, non otterrai un'efficienza ottimale.

Secondo Mike Matchett, analista di Small World Big Data, i modelli più piccoli possono essere eseguiti in memoria (RAM), consentendo una maggiore attenzione al calcolo.Tuttavia, i modelli più grandi come ChatGPT con miliardi di nodi non possono essere archiviati in memoria a causa del costo elevato.

"Non è possibile inserire miliardi di nodi nella memoria, quindi lo storage diventa ancora più importante", afferma Matchett.Sfortunatamente, l'archiviazione dei dati viene spesso trascurata durante il processo di pianificazione.

In generale, indipendentemente dal caso d'uso, ci sono quattro punti comuni nel processo di addestramento del modello:

1. Formazione del modello
2. Applicazione di inferenza
3. Conservazione dei dati
4. Calcolo accelerato

Durante la creazione e la distribuzione di modelli, la maggior parte dei requisiti dà priorità a prove di concetto rapide (POC) o ambienti di test per avviare l'addestramento del modello, con le esigenze di archiviazione dei dati che non vengono prese in considerazione.

Tuttavia, la sfida sta nel fatto che l'implementazione dell'addestramento o dell'inferenza può durare mesi o addirittura anni.Molte aziende aumentano rapidamente le dimensioni dei propri modelli durante questo periodo e l'infrastruttura deve espandersi per accogliere modelli e set di dati in crescita.

La ricerca di Google su milioni di carichi di lavoro di addestramento ML rivela che una media del 30% del tempo di addestramento viene speso nella pipeline di dati di input.Mentre la ricerca passata si è concentrata sull'ottimizzazione delle GPU per accelerare l'addestramento, rimangono ancora molte sfide nell'ottimizzazione di varie parti della pipeline di dati.Quando si dispone di una potenza di calcolo significativa, il vero collo di bottiglia diventa la velocità con cui è possibile inserire i dati nei calcoli per ottenere risultati.

Nello specifico, le sfide nell'archiviazione e nella gestione dei dati richiedono la pianificazione della crescita dei dati, consentendoti di estrarre continuamente il valore dei dati man mano che avanzi, in particolare quando ti avventuri in casi d'uso più avanzati come il deep learning e le reti neurali, che pongono requisiti più elevati storage in termini di capacità, prestazioni e scalabilità.

In particolare:

Scalabilità
L'apprendimento automatico richiede la gestione di grandi quantità di dati e, con l'aumentare del volume dei dati, migliora anche l'accuratezza dei modelli.Ciò significa che le aziende devono raccogliere e archiviare più dati ogni giorno.Quando lo storage non è in grado di scalare, i carichi di lavoro a uso intensivo di dati creano colli di bottiglia, limitando le prestazioni e determinando costosi tempi di inattività della GPU.

Flessibilità
Il supporto flessibile per più protocolli (inclusi NFS, SMB, HTTP, FTP, HDFS e S3) è necessario per soddisfare le esigenze di diversi sistemi, piuttosto che essere limitato a un singolo tipo di ambiente.

Latenza
La latenza I/O è fondamentale per la creazione e l'utilizzo di modelli poiché i dati vengono letti e riletti più volte.La riduzione della latenza I/O può ridurre il tempo di addestramento dei modelli di giorni o mesi.Lo sviluppo più rapido del modello si traduce direttamente in maggiori vantaggi aziendali.

Portata
Il throughput dei sistemi di archiviazione è fondamentale per un addestramento efficiente dei modelli.I processi di addestramento coinvolgono grandi quantità di dati, in genere in terabyte all'ora.

Accesso parallelo
Per ottenere un throughput elevato, i modelli di addestramento suddividono le attività in più attività parallele.Questo spesso significa che gli algoritmi di apprendimento automatico accedono contemporaneamente agli stessi file da più processi (potenzialmente su più server fisici).Il sistema di archiviazione deve gestire richieste simultanee senza compromettere le prestazioni.

Con le sue straordinarie capacità di bassa latenza, throughput elevato e I/O parallelo su larga scala, Dell PowerScale è un complemento di storage ideale per l'elaborazione con accelerazione GPU.PowerScale riduce efficacemente il tempo necessario per i modelli di analisi che addestrano e testano set di dati multi-terabyte.Nello storage all-flash PowerScale, la larghezza di banda aumenta di 18 volte, eliminando i colli di bottiglia di I/O e può essere aggiunta ai cluster Isilon esistenti per accelerare e sbloccare il valore di grandi quantità di dati non strutturati.

Inoltre, le funzionalità di accesso multiprotocollo di PowerScale offrono una flessibilità illimitata per l'esecuzione dei carichi di lavoro, consentendo l'archiviazione dei dati utilizzando un protocollo e l'accesso tramite un altro.Nello specifico, le potenti funzionalità, la flessibilità, la scalabilità e le funzionalità di livello aziendale della piattaforma PowerScale aiutano ad affrontare le seguenti sfide:

- Accelerare l'innovazione fino a 2,7 volte, riducendo il ciclo di formazione del modello.

- Elimina i colli di bottiglia di I/O e fornisci formazione e convalida del modello più rapide, maggiore accuratezza del modello, maggiore produttività della data science e massimo ritorno sugli investimenti informatici sfruttando funzionalità di livello aziendale, prestazioni elevate, concorrenza e scalabilità.Migliora la precisione del modello con set di dati più profondi e ad alta risoluzione sfruttando fino a 119 PB di capacità di storage effettiva in un singolo cluster.

- Raggiungere la distribuzione su larga scala avviando il calcolo e lo storage in piccole dimensioni e in modo indipendente, offrendo solide opzioni di protezione e sicurezza dei dati.

- Migliora la produttività della data science con analisi sul posto e soluzioni pre-convalidate per implementazioni più rapide e a basso rischio.

- Sfruttando progetti collaudati basati sulle migliori tecnologie, tra cui l'accelerazione GPU NVIDIA e le architetture di riferimento con i sistemi NVIDIA DGX.Le elevate prestazioni e la concorrenza di PowerScale soddisfano i requisiti di prestazioni dello storage in ogni fase dell'apprendimento automatico, dall'acquisizione e preparazione dei dati all'addestramento e all'inferenza del modello.Insieme al sistema operativo OneFS, tutti i nodi possono operare senza problemi all'interno dello stesso cluster basato su OneFS, con funzionalità di livello aziendale come la gestione delle prestazioni, la gestione dei dati, la sicurezza e la protezione dei dati, consentendo un completamento più rapido della formazione e della convalida del modello per le aziende.


Tempo di pubblicazione: luglio-03-2023