999精品,丝袜综合,大陆老熟妇性,中国老女人AV,亚洲精品国产第一区二区三区

卷積神經(jīng)網(wǎng)絡(luò)的硬件轉(zhuǎn)換:什么是機(jī)器學(xué)習(xí)?——第三部分 世界時快訊
發(fā)布時間:2023-06-13 19:30:44 文章來源:電子工程網(wǎng)
當(dāng)前位置: 主頁 > 資訊 > 專題 > 正文

作者:Ole Dreessen,ADI公司現(xiàn)場應(yīng)用工程師


(資料圖片僅供參考)

摘要

本系列文章由三部分組成,主要探討卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特性和應(yīng)用。CNN主要用于模式識別和對象分類。作為系列文章的第三部分,本文重點(diǎn)解釋如何使用硬件轉(zhuǎn)換卷積神經(jīng)網(wǎng)絡(luò)(CNN),并特別介紹使用帶CNN硬件加速器的人工智能(AI)微控制器在物聯(lián)網(wǎng)(IoT)邊緣實(shí)現(xiàn)人工智能應(yīng)用所帶來的好處。系列文章的前兩篇文章為《卷積神經(jīng)網(wǎng)絡(luò)簡介:什么是機(jī)器學(xué)習(xí)?——第一部分》和《訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò):什么是機(jī)器學(xué)習(xí)?——第二部分》。

簡介

AI應(yīng)用通常需要消耗大量能源,并以服務(wù)器農(nóng)場或昂貴的現(xiàn)場可編程門陣列(FPGA)為載體。AI應(yīng)用的挑戰(zhàn)在于提高計算能力的同時保持較低的功耗和成本。當(dāng)前,強(qiáng)大的智能邊緣計算正在使AI應(yīng)用發(fā)生巨大轉(zhuǎn)變。與傳統(tǒng)的基于固件的AI計算相比,以基于硬件的卷積神經(jīng)網(wǎng)絡(luò)加速器為載體的智能邊緣AI計算具備驚人的速度和強(qiáng)大的算力,開創(chuàng)了計算性能的新時代。這是因?yàn)橹悄苓吘売嬎隳軌蜃寕鞲衅鞴?jié)點(diǎn)在本地自行決策而不受5G和Wi-Fi網(wǎng)絡(luò)數(shù)據(jù)傳輸速率的限制,為實(shí)現(xiàn)之前難以落地的新興技術(shù)和應(yīng)用場景提供了助力。例如,在偏遠(yuǎn)地區(qū),傳感器級別的煙霧/火災(zāi)探測或環(huán)境數(shù)據(jù)分析已成為現(xiàn)實(shí)。這些應(yīng)用支持電池供電,能夠工作很多年的時間。本文通過探討如何采用帶專用CNN加速器的AI微控制器實(shí)現(xiàn)CNN的硬件轉(zhuǎn)換來說明如何實(shí)現(xiàn)這些功能。

采用超低功耗卷積神經(jīng)網(wǎng)絡(luò)加速器的人工智能微控制器

MAX78000是一款有超低功耗CNN加速器的AI微控制器片上系統(tǒng), 能在資源受限的邊緣設(shè)備或物聯(lián)網(wǎng)應(yīng)用中實(shí)現(xiàn)超低功耗的神經(jīng)網(wǎng)絡(luò)運(yùn)算。其應(yīng)用場景包括目標(biāo)檢測和分類、音頻處理、聲音分類、噪聲消除、面部識別、基于心率等健康體征分析的時間序列數(shù)據(jù)處理、多傳感器分析以及預(yù)測性維護(hù)。

圖1為MAX78000的框圖,其內(nèi)核為帶浮點(diǎn)運(yùn)算單元的Arm? Cortex?-M4F內(nèi)核,工作頻率高達(dá)100 MHz。為了給應(yīng)用提供足夠的存儲資源,MAX78000還配備了512 kB的閃存和128 kB的SRAM。該器件提供多個外部接口,例如I2C、SPI、UART,以及用于音頻的I2S。此外,器件還集成了60 MHz的RISC-V內(nèi)核,可以作為一個智能的直接存儲器訪問(DMA)引擎從/向各個外圍模塊和存儲(包括閃存和SRAM)復(fù)制/粘貼數(shù)據(jù)。由于RISC-V內(nèi)核可以對AI加速器所需的

image001.jpg


圖1.MAX78000的結(jié)構(gòu)框圖

傳感器數(shù)據(jù)進(jìn)行預(yù)處理,因而Arm內(nèi)核在此期間可以處于深度睡眠模式。推理結(jié)果也可以通過中斷觸發(fā)Arm內(nèi)核在主應(yīng)用程序中執(zhí)行操作,通過無線傳輸傳感器數(shù)據(jù)或向用戶發(fā)送通知。

具備用于執(zhí)行卷積神經(jīng)網(wǎng)絡(luò)推理的專用硬件加速器單元是MAX7800x系列微控制器的一個顯著特征,這使其有別于標(biāo)準(zhǔn)的微控制器架構(gòu)。該CNN硬件加速器可以支持完整的CNN模型架構(gòu)以及所有必需的參數(shù)(權(quán)重和偏置),配備了64個并行處理器和一個集成存儲器。集成存儲器中的442 kB用于存儲參數(shù),896 kB用于存儲輸入數(shù)據(jù)。不僅存儲在SRAM中的模型和參數(shù)可以通過固件進(jìn)行調(diào)整,網(wǎng)絡(luò)也可以實(shí)時地通過固件進(jìn)行調(diào)整。器件支持的模型權(quán)重為1位、2位、4位或8位,存儲器支持容納多達(dá)350萬個參數(shù)。加速器的存儲功能使得微控制器無需在連續(xù)的數(shù)學(xué)運(yùn)算中每次都要通過總線獲取相關(guān)參數(shù)——這樣的方式通常伴有高延遲和高功耗,代價高昂。CNN加速器可以支持32層或64層的網(wǎng)絡(luò),具體層數(shù)取決于池化函數(shù)。每層的可編程圖像輸入/輸出大小最多為1024 × 1024像素。

CNN硬件轉(zhuǎn)換:功耗和推理速度比較

CNN推理是一項(xiàng)包含大型矩陣線性方程運(yùn)算的復(fù)雜計算任務(wù)。Arm Cortex-M4F微控制器的強(qiáng)大能力可以使得CNN推理在嵌入式系統(tǒng)的固件上運(yùn)行。但這種方式也有一些缺點(diǎn):在微控制器上運(yùn)行基于固件的CNN推理時,計算命令和相關(guān)參數(shù)都需要先從存儲器中檢索再被寫回中間結(jié)果,這會造成大量功耗和時延。

表1對三種不同解決方案的CNN推理速度和功耗進(jìn)行了比較。所用的模型基于手寫數(shù)字識別訓(xùn)練集MNIST開發(fā),可對視覺輸入數(shù)據(jù)中的數(shù)字和字母進(jìn)行分類以獲得準(zhǔn)確的輸出結(jié)果。為確定功耗和速度的差異,本文對三種解決方案所需的推理時間進(jìn)行了測量。

表1.手寫數(shù)字識別的CNN推理時間和推理功耗,基于MNIST數(shù)據(jù)集

    推理速度每次推理功耗(μWs)

    標(biāo)簽:

    最近更新