Arm GPU Mali-G77: tutti i dettagli

By | Maggio 27, 2019

Oltre al nuovo core CPU Cortex-A77, Arm ha presentato una GPU di nuova generazione destinata ai SoC per smartphone di prossima generazione. Mali-G77, da non confondere con il nuovo processore per display Mali-D77, segna la partenza dell’architettura Bifrost di Arm e il passaggio a Valhall.

Panoramica delle prestazioni Mali-G77

Abbiamo un aumento delle prestazioni grafiche del 40% con Mali-G77 di prossima generazione rispetto ai modelli Mali-G76 di oggi. Questo numero tiene in considerazione il processo e i miglioramenti architettonici. Mali-G77 è configurabile da 7 a 16 core dello shader e ogni core ha quasi le stesse dimensioni del core G76.

Guardando al famoso benchmark di Manhattan GFXBench, un aumento delle prestazioni del 40% è un vantaggio considerevole se paragonato all’attuale hardware. Il chip Adreno di prossima generazione di Qualcomm avrà bisogno di un significativo upgrade delle prestazioni per mantenere alto il livello.



Per quanto riguarda l’architettura, le prestazioni di gioco aumentano dal 20% al 40%, mentre l’apprendimento automatico guadagna il 60%

Basandosi su questo piuttosto crudo ballparking, una Mali-G77 a 10 core (una configurazione che vediamo spesso sui dispositivi Huawei) sembra quasi uscire dall’hardware grafico di punta della linea di questa generazione. Una configurazione a 12 core, in genere vista sugli Exynos di Samsung, fornisce un grande vantaggio per l’ultima GPU di Arm.

Ovviamente, i benchmark reali dipenderanno da altri fattori, tra cui il nodo del processo, la memoria cache della GPU, la configurazione della memoria LPDDR e il tipo di applicazione che si sta testando. Quindi prendi il grafico sopra con leggerezza.

Per quanto riguarda la nuova architettura, Arm afferma che Mali-G77 offre un miglioramento medio del 30% dell’efficienza energetica e della densità delle prestazioni. C’è anche un enorme incremento del 60 percento per le applicazioni di machine learning, grazie al supporto del prodotto INT8 dot. Le aspettative relative alle prestazioni di gioco sono impostate tra il 20 e il 40 percento di aumento, a seconda del titolo e del tipo di carichi di lavoro grafici offerti.

Per capire esattamente come Arm ha raggiunto questo livello di prestazioni, facciamo un tuffo più profondo nell’architettura.



Incontra Valhall, il successore di Bifrost

Vahall è l’architettura scalare di GP di seconda generazione di Arm. È un motore di esecuzione a 16-wide-warp, il che significa essenzialmente che la GPU esegue 16 istruzioni in parallelo per ciclo, per unità di elaborazione, per core. Questo è più di 4 e 8 di larghezza in Bifrost.

Altre nuove caratteristiche architettoniche includono la programmazione dinamica delle istruzioni gestita interamente dall’hardware e un set di istruzioni completamente nuovo che mantiene l’equivalenza operativa di Bifrost. Altri includono il supporto per il formato di compressione AFBC1.3 di Arm, i target di rendering FP16, il rendering a strati e gli output di vertex shader.

All’interno del motore di esecuzione

In Bifrost, ogni core GPU conteneva tre motori di esecuzione o due nel caso di alcuni progetti Mali-G52 di fascia bassa. Ogni motore contiene un i-cache, un file di registro e un’unità di controllo del warp. In Mali-G72, ogni motore gestisce 4 istruzioni per ciclo, che sono state aumentate a 8 con Mali-G76 dello scorso anno. La diffusione su questi tre core consente 12 e 24 istruzioni a ciclo multiplo (FMA) a virgola mobile (FP32) a 32 bit in virgola mobile (FMA) per ciclo.

Con Valhall e Mali-G77, c’è solo un singolo motore di esecuzione all’interno di ogni core della GPU. Come prima, questo motore ospita l’unità di controllo del warp, registro e icache, che ora è condivisa tra due unità di elaborazione. Ogni unità di elaborazione gestisce 16 istruzioni per ciclo, per un throughput totale di 32 istruzioni FMA FP32 per core. Questo è un aumento del 33 percento del throughput delle istruzioni sul Mali-G76.

Qualcomm Snapdragon 8cx 5G, il primo processore con 5G e 7 nm per PC

Inoltre, ciascuna di queste unità di elaborazione contiene due nuovi blocchi funzione matematici. La nuova unità di conversione (CVT) gestisce le istruzioni di base, logiche, di ramo e di conversione. L’unità di funzioni speciali (SFU) accelera la moltiplicazione di interi, divisioni, radice quadrata, logaritmi e altre funzioni complesse di interi.

L’unità FMA standard ha visto alcune modifiche, supportando 16 istruzioni FP32 per ciclo, 32 FP16 o 64 istruzioni prodotto INT8 dot. Queste ottimizzazioni producono il 60% di aumento delle prestazioni nelle applicazioni di apprendimento automatico.

L’altro cambiamento chiave con Mali-G77 è l’introduzione di un mappatore di texture quad, da un doppio mappatore di texture nella generazione precedente. Il mappatore di texture è responsabile della mappatura dei poligoni 3D in una scena nella rappresentazione 2D che si vede su uno schermo. È responsabile del campionamento, dell’interpolazione e del filtraggio per uniformare i contenuti inclinati e mobili per evitare bordi duri e di bassa qualità.

L’anti-aliasing a basso costo rimane in essere per agevolare la qualità dell’immagine, ma il raddoppio delle prestazioni della trama è il principale vantaggio qui. L’unità di texture ora elabora 4 texels bilineari per clock su da 2 precedenti, 2 texel trilineari per clock e gestisce il filtro FP16 e FP32 più veloce.

Il quad texture maper è diviso in due percorsi, fornendo una pipeline più breve per i thread che colpiscono il contenuto nella cache. Il percorso miss, che gestisce la conversione del formato e la decompressione della trama, presenta un’interfaccia più ampia alla cache L2. Ciò è utile anche per i carichi di lavoro di machine learning che spesso richiedono di inserire nuovi dati dalla memoria.

Potenza bruta per tutti con i nuovi Qualcomm Snapdragon 665, 730 e 730G

Arm ha apportato una serie di altre modifiche su Mali-G77 in concomitanza con i principali cambiamenti nell’architettura Valhall. Il blocco di controllo è semplificato grazie al design della singola unità di esecuzione, mentre lo scheduler dinamico interno consente in realtà un’erogazione più flessibile all’interno di ciascun core. Con un throughput più elevato in ogni core, il datapath è anche più corto e più basso nella latenza, fino a solo 4 cicli da 8 in precedenza.

Il nuovo design è anche meglio allineato con l’API Vulkan, semplificando i descrittori dei driver per ridurre l’overhead dei driver per migliorare le prestazioni del “metallo”.

In sintesi, il Mali-G72 e Valhall apportano importanti cambiamenti da Bifrost che promettono significativi miglioramenti delle prestazioni per applicazioni di gioco e di apprendimento automatico. È importante sottolineare che il design si adatta agli stessi budget di alimentazione di Bifrost, garantendo che i dispositivi mobili siano in grado di offrire maggiori prestazioni di picco senza preoccuparsi del riscaldamento, alimentazione e silicio.

La conoscenza muore se non è condivisa ...!
Author: Morgana Presi

Mi chiamo Morgana e non sono una fata. Scrivo di tanto in tanto per Guidesmartphone.net articoli che parlano di tecnologia. Mi piace scrivere di smartphone. Nella vita studio.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.