Lidí, kteří mohou pracovat, je díky klesající porodnosti a také rostoucímu počtu osob v letech stále méně. V celé řadě běžných oblastí, a to včetně továren, logistiky, zdravotní péče, servisních robotů provozovaných ve městě nebo např. bezpečnostních kamer, bude proto zapotřebí pokročilého zpracování s možnostmi umělé inteligence (AI) – rozpoznávání okolního prostředí, rozhodování o dalších krocích či řízení pohybu. Takové systémy budou muset v různých typech programu zvládat moderní způsoby zpracování s AI v reálném čase. V kontextu použitých součástek se pak jedná zejména o rychlou odezvu na neustále se měnící podmínky. Čipy s podporou AI zároveň spotřebují méně energie, zatímco budou v případě vestavných zařízení provádět pokročilá zpracování s využitím AI a jejich produkce ztrátového tepla zde zůstane přísně pod kontrolou.
Ve společnosti Renesas reagovali na potřeby trhu a vyvinuli procesor DRP-AI3 (Dynamically Reconfigurable Processor pro AI3) coby akcelerátor AI pro velmi rychlé logické úsudky a související zpracování, ve kterém se spojí požadavky zařízení pracujících přímo na místě (tzv. Edge) na nízký příkon, včetně flexibility. Zmíněná rekonfigurovatelná technologie procesoru – akcelerátoru AI, zdokonalovaná po mnoho let, je součástí MPU řady RZ/V, zaměřených právě na aplikace s umělou inteligencí.
RZ/V2H je nový špičkový produkt řady RZ/V, dosahující v porovnání s předchozími přístupy přibližně desetkrát větší výkonové účinnosti. Řešení proto umí reagovat na další rozvoj AI a také velmi složité požadavky aplikací, např. ze světa robotů. V článku si ukážeme, jak obvody RZ/V2H řeší náročné otázky související se ztrátovým výkonem a umožňují přitom dosahovat u výrobků, skloňujících umělou inteligenci vysokých rychlostí při zpracování v reálném čase, rostoucí výkonnosti a také nižší spotřeby energie.
Akcelerátor DRP-AI3, prořezávání a efektivní práce s modely AI
Ořezávání (Pruning) je typickou technologií zlepšující efektivitu při zpracování s AI, takže lze vynechat výpočty, které významně neovlivňují přesnost při rozpoznávání. Takové výpočty bez vlivu na dosahovanou přesnost se samozřejmě u příslušných modelů vyskytují, a to náhodně. Je to i příčina rozdílu, pokud jde o paralelismus hardwarového zpracování a nahodilost ořezávání, což nakonec vede k nehospodárnému zpracování.
Aby to ve společnosti Renesas vyřešili, optimalizovali svůj unikátní akcelerátor AI, založený na DRP (DRP-AI) s ohledem právě na zmíněné ořezávání. Na základě analýzy, jak příslušné charakteristiky a také metody souvisí u typických modelů AI (modely CNN) pro rozpoznávání obrazu s přesností, pak zmíněný výrobce objevil hardwarovou strukturu akcelerátoru AI, která dosahuje jak vysoké přesnosti při rozpoznávání, tak i efektivního ořezávání a vše následně použil při návrhu DRP-AI3. Kromě toho byl vyvinut i software snižující váhu modelů AI s optimalizací pro takový procesor. Zmiňovaný software převádí konfiguraci modelu s nahodilým ořezáváním na vysoce účinné paralelní výpočty, znamenající vyšší rychlosti při zpracování s AI. Vysoce flexibilní technologie podporující ořezávání od firmy Renesas (N:M Pruning), která dokáže dynamicky změnit počet cyklů v reakci na změny rychlosti spojené u modelů AI s lokálním ořezáváním, umožňuje zejména citlivě řídit příslušnou rychlost v závislosti na výkonové spotřebě, provozní rychlosti nebo i přesnosti při rozpoznávání, vyžadované ze strany uživatele.
Heterogenní architektura aneb když DRP-AI3, DRP a CPU pracují společně
K tomu, aby např. servisní roboty rozpoznaly prostředí okolo sebe, bude zapotřebí pokročilého zpracování s AI. Na druhou stranu je ale při rozhodování a také řízení chování robotu rovněž vyžadováno zpracování vycházející z algoritmů, které se bez umělé inteligence obejdou. Současné vestavné procesory (CPU) však nemají dostatek prostředků k tomu, aby zmiňované různé druhy zpracování prováděly v reálném čase. Firma Renesas vše vyřešila tím, že vyvinula heterogenní architekturu – technologii, umožňující aby dynamicky rekonfigurovatelný procesor (DRP), akcelerátor AI (DRP-AI3) a CPU mohli pracovat společně.
Jak plyne z obr. 1, procesor DRP s možností dynamické rekonfigurace zde bude vykonávat své úkoly, zatímco s každým pracovním taktem, a dle obsahu, který se má také zpracovat, dynamicky mění obvodové uspořádání aritmetických jednotek na čipu. Protože jsou použity pouze nezbytné aritmetické obvody, spotřebuje DRP i méně energie, než je tomu v případě zpracování s CPU a dosáhneme tak na vyšší rychlosti. Ale nejen to. Ve srovnání s CPU, kde nám bude zhoršovat vlastnosti běžný přístup k externí paměti (potíže s cache apod.), dokáže DRP u hardwaru dopředu vystavět nezbytné datové trasy. Výsledkem je menší dopad na výkonnost a také méně odchylek, pokud jde o provozní rychlosti (jitter) z titulu přístupu k paměti.
Obr. 1 K činnosti flexibilního procesoru DRP (Dynamically Reconfigurable Processor)
S DRP se také pojí dynamicky rekonfigurovatelná funkce, která mění informaci u obvodového zapojení s každou změnou algoritmu a umožňuje tak zpracování s omezenými hardwarovými prostředky – dokonce i v robotických aplikacích, které jinak vyžadují zpracování s větším počtem algoritmů.
DRP je účinný zejména při zpracování streamovaných dat, třeba u rozpoznávání obrazu, kde paralelizace a také pipelining přímo zlepšují dosahované vlastnosti. Výpočetní prostředky si na druhou stranu žádají také programy typu řízení a rozhodování o chování robota, zatímco se podmínky budou dále měnit a zpracování se doladí v reakci na změny okolního prostředí. Softwarový přístup s CPU může být v takovém případě vhodnější než hardwarové řešení, spojované s DRP. Je proto důležité přerozdělit zpracování na ta správná místa, zatímco vše poběží koordinovaným způsobem. Heterogenní architektura a související technologie od firmy Renesas umožňují přitom DRP a CPU pracovat společně.
Architekturu s MPU a také akcelerátorem AI (DRP-AI3) sledujeme na obr. 2. Robotické aplikace používají sofistikovaného spojení rozpoznávání obrazu, založeného na možnostech AI a také algoritmů pro řízení a rozhodování, které se bez AI obejdou. Konfigurace s DRP pro zpracování s AI (DRP-AI3) a DRP pro algoritmy bez AI nám tudíž výrazně zvýší výkonnost robotické aplikace.
Obr. 2 Heterogenní architektura, vycházející z DRP-AI3
Výsledky testů
Zhodnocení výkonu při zpracování s modelem AI
Pokud jde o výkon akcelerátoru AI při zpracování, obvody RZ/V2H vybavené zmíněnou technologií dosáhly maxima v podobě 8 TOPS (osm bilionů operací SOP za vteřinu). U modelů AI, kde došlo k prořezání se navíc mohl počet provozních cyklů snížit úměrně k rozsahu prořezávání a dosahujeme tak výkonu při zpracování, který odpovídá maximu v podobě 80 TOPS, budeme-li srovnávat s modely před prořezáváním. To je přibližně 80krát více, než u předchozích produktů RZ/V. S takto výrazně navýšeným výkonem lze již hezky držet krok s překotným rozvojem AI (viz obr. 3).
Obr. 3 Porovnání změřeného špičkového výkonu DRP-AI3
Jak se systémy s využitím AI na jedné straně zrychlují, doba potřebná ke zpracování obrazu, založenému na algoritmech bez AI se tak stává (před i po) poměrně „úzkým hrdlem“. V případě MPU s AI se část programu pro zpracování obrazu přesouvá do DRP, což u systému přispívá ke zlepšení celkové doby zpracování (obr. 4).
Obr. 4 Heterogenní architektura, zrychlující zpracování při rozpoznávání obrazu (měřeno s Test Chip)
Zhodnocení vlastností akcelerátoru AI nám z pohledu výkonové účinnosti demonstrovalo vůbec tu nejvyšší míru efektivity, pokud jde o činnost hlavních modelů AI – přibližně 10 TOPS na watt (obr. 5).
Obr. 5 Výkonová účinnost u reálných modelů AI (měřeno s Test Chip)
Zároveň se ukázalo, že stejné zpracování s AI v reálném čase může fungovat na vývojové desce osazené RZ/V2H bez ventilátoru, a to při teplotách, které budou srovnatelné s konkurenčními produkty vybavenými aktivním chlazením (obr. 6).
Obr. 6 Produkované teplo při srovnání mezi deskou RZ/V2H bez ventilátoru a GPU s ventilátorem
Příklady v podobě robotických aplikací
SLAM (Simultaneously Localization and Mapping), coby jednu z aplikací typických pro roboty, např. provází složité konfigurace, vyžadující různé procesy spojené s rozpoznáváním pozice, souběžně s rozlišováním prostředí na základě zpracování s AI. DRP od firmy Renesas umožňují u robotů okamžité změny programu. V případě paralelního provozu s akcelerátorem AI a CPU lze navíc počítat zhruba s 17krát vyšší rychlostí, než v případě samotného CPU a také s výkonovou spotřebou, která za stejného předpokladu klesá na 1/12.
Závěr
Společnost Renesas přišla s RZ/V2H, unikátním procesorem s podporou umělé inteligence, ve kterém se snoubí nízká vlastní spotřeba a flexibilita vyžadovaná koncovými body s možnostmi zpracování, pokud jde o modely AI a ořezávání, včetně desetinásobně rostoucí účinnosti (10 TOPS/W), než tomu bylo u dřívějších produktů.
Renesas plánuje uvádět na trh produkty, které v pravý čas reagují na další rozvoj umělé inteligence. Ta bude přitom dle očekávání stále sofistikovanější. Napomůže tak zavádění systémů, které u koncových produktů zaručí nejen „chytrost“, ale i zpracování v reálném čase.
Odkazy:
[1] RZ/V2H, https://www.renesas.com/rzv2h
[2] DRP-AI, chráněný akcelerátor AI firmy Renesas, spojující vysoký výkon při vyvozování závěrů s nízkou spotřebou energie; https://www.renesas.com/software-tool/ai-accelerator-drp-ai