Le reti neurali profonde (DNN) hanno avuto molto successo in molte applicazioni diverse, che vanno dai veicoli a guida autonoma e dall’elaborazione del linguaggio naturale al rilevamento delle frodi. Ma per la natura stessa del loro design, i DNN non si prestano a funzionare bene quando le risorse di calcolo sono limitate. I molti livelli di queste reti, ciascuno con molti parametri, sono sufficienti per far desiderare a un piccolo dispositivo di edge computing di poter chiamare un amico nel cloud per chiedere aiuto. Ma ci sono buone ragioni, tra cui la privacy e la latenza, per eseguire i calcoli sul dispositivo.
Mantenere le inferenze DNN al limite è stata la motivazione alla base dello sviluppo di Hiddenite (Hidden Neural Network Inference Tensor Engine), un nuovo chip acceleratore AI recentemente annunciato dal Tokyo Institute of Technology. Hiddenite è stato progettato per rendere i modelli DNN più performanti riducendo i loro carichi di calcolo e contemporaneamente riducendo il consumo energetico, che può far funzionare i dispositivi edge come Energizer Bunny.
Se siete persone che si tengono aggiornate sugli ultimi progressi nell’apprendimento automatico, allora potreste avere familiarità con la cosiddetta “ipotesi del biglietto della lotteria” che è stata formulata alcuni anni fa. L’ipotesi afferma che all’interno di qualsiasi DNN di dimensioni considerevoli, ci saranno un certo numero di sottoreti più piccole che funzioneranno esattamente come il modello completo. Se queste sottoreti possono essere identificate, è quindi possibile sfoltire la rete, in modo tale da ridurne significativamente la complessità, senza avere un impatto negativo sull’accuratezza del modello. Di conseguenza, i requisiti di calcolo del modello potato possono essere ridotti al punto da rendere possibile l’esecuzione di inferenze su dispositivi edge laddove altrimenti non sarebbe fattibile.
Il trucco, ovviamente, è trovare queste reti neurali nascoste. È qui che entra in gioco Hiddenite: questo chip è stato progettato per semplificare il processo di ricerca di sottoreti nascoste con prestazioni ottimali. Una maschera binaria, denominata “supermaschera“, viene utilizzata per tracciare quali connessioni nel modello completo sono attive e quali no. Eseguendo un algoritmo di ricerca in cui le connessioni vengono attivate e disattivate, l’acceleratore può funzionare in modo iterativo per trovare la sottorete migliore e più piccola per il lavoro.
Il processore Hiddenite utilizza un generatore di numeri casuali su chip per generare e rigenerare pesi per ridurre l’accesso alla memoria esterna, il che aiuta il chip a raggiungere un’elevata efficienza energetica. Gli accessi alla memoria esterna sono ridotti anche dai circuiti integrati che comprimono e, quando necessario, si espandono, le supermaschere per ridurre il numero di supermaschere che l’acceleratore deve caricare. L’ultima caratteristica distintiva di Hiddenite è un processore parallelo quadridimensionale ad alta densità che massimizza il riutilizzo dei dati.
Un prototipo di chip da 3 mm per 3 mm è stato fabbricato presso la Taiwan Semiconductor Manufacturing Company ed è in grado di gestire 4.096 operazioni di moltiplicazione e accumulo contemporaneamente. L’efficienza computazionale di Hiddenite è all’avanguardia, con un massimo di 34,8 trilioni di operazioni al secondo per watt di potenza. Questi progressi sono significativi e possono aiutare a portare modelli sempre più complessi alla portata dei dispositivi di edge computing.
Join our groups on Telegram…