Un quartetto di ricercatori dell’Università della California a Riverside (UC Riverside) e di Notre Dame hanno offerto un’anticipazione di quello che affermano essere un metodo “veloce e ottimale” di co-progettazione per acceleratori di reti neurali, basato su un approccio semi-disaccoppiato.
“Il co-design hardware-software sta emergendo per sfruttare appieno i vantaggi di spazi di progettazione flessibili e ottimizzare le prestazioni della rete neurale”, spiega il team del lavoro precedente sul campo. “Tuttavia, tale co-design allarga anche lo spazio di ricerca totale praticamente all’infinito e presenta sfide sostanziali”.
Ecco la soluzione proposta: piuttosto che disaccoppiare completamente il progetto dell’acceleratore neurale, disaccoppiandolo solo parzialmente attraverso l’uso di un “acceleratore proxy”, riducendo lo spazio di progettazione “di ordini di grandezza”, pur essendo in grado di produrre un design quasi ottimale in un tempo notevolmente inferiore rispetto agli approcci precedenti.
“Prima eseguiamo la ricerca dell’architettura neurale per ottenere un piccolo insieme di architetture ottimali per un acceleratore candidato”, scrive il team. “È importante sottolineare che questo è anche l’insieme di architetture (quasi) ottimali per altri progetti di acceleratori basati sulla proprietà che gli ordini di classificazione delle architetture neurali in termini di latenza di inferenza e consumo di energia su diversi progetti di acceleratori sono molto simili. Quindi, invece considerando tutte le architetture possibili, ottimizziamo il design dell’acceleratore solo in combinazione con questo piccolo insieme di architetture, riducendo così notevolmente il costo totale di ricerca”.
Per dimostrare il concetto, il team ha creato un simulatore di rete neurale profonda (DNN) open source MAESTRO come benchmark, eseguendo 5.000 diverse combinazioni hardware-flusso di dati utilizzando NAS-Bench-301 e AlphaNet. Per il primo, l’approccio del team ha trovato un’architettura ottimale con un costo di ricerca di 3,7k, ai 135k richiesti da un approccio più tradizionale, riducendo drasticamente il tempo impiegato pur fornendo una soluzione ottimale con prestazioni prevedibili e consumo energetico.
“Concretamente”, concludono i ricercatori, “dimostriamo la latenza e la monotonia energetica tra diversi acceleratori e utilizziamo solo l’architettura ottimale di un acceleratore proxy per evitare di cercare nell’intero spazio dell’architettura. Rispetto al SOTA [State-of-the-Art] co-design, il nostro approccio può ridurre la complessità totale del design di ordini di grandezza, senza perdere l’ottimalità”.
Il lavoro del team sulle reti neurali è disponibile in condizioni open-access sul server di preprint arXiv di Cornell dopo la sua presentazione al tinyML Research Symposium 2022; il codice sorgente, basato su MAESTRO, è disponibile su GitHub con licenza MIT.
Iscriviti ai nostri gruppi Telegram