Lo specialista di machine learning Edge EdgeCortix ha annunciato il rilascio del suo acceleratore SAKURA-II di prossima generazione, con l’obiettivo di fornire fino a 60 tera-operazioni al secondo (TOPS) di elaborazione ad alta efficienza energetica per modelli linguistici di grandi dimensioni (LLM) su dispositivo e altri carichi di lavoro di intelligenza artificiale generativa (gen AI).
“Le impressionanti prestazioni di 60 TOPS di SAKURA-II entro 8 W di consumo energetico tipico, combinate con le sue capacità di compressione della memoria integrata e precisione mista, lo posizionano come una tecnologia fondamentale per le più recenti soluzioni di intelligenza artificiale generativa all’avanguardia”, afferma il fondatore e fondatore di EdgeCortix, nonché amministratore delegato Sakyasingha Dasgupta.
“Che si tratti di modelli AI tradizionali o dei più recenti modelli Llama 2/3, a diffusione stabile, Whisper o Vision Transformer”, continua Dasgupta, “SAKURA-II offre flessibilità di implementazione con prestazioni superiori per watt ed efficienza in termini di costi. Ci impegniamo per garantire la soddisfazione delle diverse esigenze dei nostri clienti e anche per garantire una base tecnologica che rimanga solida e adattabile nel settore dell’intelligenza artificiale in rapida evoluzione.”
L’acceleratore SAKURA-II è stato “personalizzato appositamente per l’elaborazione di carichi di lavoro di intelligenza artificiale generativa all’edge”, è in grado di eseguire modelli di intelligenza artificiale con parametri multimiliardari sul dispositivo, tra cui Llama 2, Stable Diffusion, DETR e ViT, con un assorbimento di potenza “tipico” dichiarato di 10 W. Il chip include 20 MB di RAM statica sul dispositivo (SRAM) e fornisce i 60 TOPS dichiarati con precisione INT8 o 30 operazioni in virgola mobile tera al secondo (TFLOPS) con BF16.
Per coloro che lavorano con dispositivi con vincoli di spazio, SAKURA-II viene reso disponibile su un modulo PCI Express M.2 da 2280 contatti; per workstation e server, una variante della scheda aggiuntiva PCI Express (AIB) di dimensioni standard ospita uno o due chip SAKURA-II per fornire fino a 120 TOPS per scheda. La variante M.2 è disponibile con 8 GB o 16 GB di memoria LPDDR4, mentre PCIe AIB è disponibile con 16 GB in varianti a chip singolo o 32 GB in varianti a doppio chip – con quest’ultima, abbastanza naturalmente, che raddoppia l’assorbimento di potenza tipico a 20 W.
L’acceleratore è supportato dallo stack software MERA di EdgeCortix, che fornisce supporto per una gamma di modelli tra cui le tradizionali reti neurali convoluzionali (CNN) come ResNet 50/101 e YoloX e modelli basati su trasformatore tra cui DINO, GPT-2, Open-Llama2 e Llama 3, quest’ultimo in esecuzione sul dispositivo con una dimensione di otto miliardi di parametri.
Le schede SAKURA-II sono ora disponibili per il preordine in vista del rilascio previsto nella seconda metà dell’anno, al prezzo di 249 dollari per l’M.2 da 8 GB, 299 dollari per l’M.2 da 16 GB, 429 per quella a chip singolo da 16 GB. PCIe AIB e 749 dollari per il PCIe AIB da 32 GB a doppio chip. Sebbene EdgeCortix avesse confermato l’intenzione di vendere SAKURA-II anche come chip autonomo per coloro che desiderano integrarlo nei propri progetti di dispositivi, al momento non disponiamo di ulteriori informazioni.
Join our groups on Telegram…