Adreno GPU 矩陣乘法——第2部分：主機代碼和內核函數

這是我們Adreno?工程師Vladislav Shimanskiy 撰寫的Adreno GPU 矩陣乘法系列文章的第二部分，也是最后一個部分。上一個部分Vladislav Shimanskiy解釋了Adreno 4xx和5xx GPU系列設備端矩陣乘法（MM）內核函數和主機端參考代碼的優化實現相關概念。本文中，他將結合代碼分析，詳細介紹基于OpenCL的主機代碼和內核函數的實現。

Vlad Shimanskiy是Qualcomm? GPU計算解決方案團隊的高級工程師。

正如我上次在討論問題“GPU矩陣乘法存在哪些困難？”時提到的，由于近來依賴于卷積的深度學習引起廣泛關注，矩陣乘法（MM）運算也在GPU上變得流行起來。像Adreno GPU這樣的并行計算處理器是加速此類運算的理想選擇。然而，MM算法需要在各個計算工作項之間共享大量數據。因此，優化Adreno的MM算法需要我們利用GPU內存子系統。

在OpenCL中實現

前面已經給大家介紹了常用的四種優化技術，這里，我們進一步介紹在OpenCL中實現這些優化技術的主機參考代碼和內核函數，這些參考代碼和內核函數你將可以直接應用到你自己的代碼中。

主機代碼

首先，我們運行防止內存復制的主機代碼。如前文所述，一個矩陣通過TP/L1加載，另一個矩陣通過常規全局內存訪問路徑加載。

兩個輸入矩陣中的一個矩陣用圖像表示方法進行表示，即示例代碼中的矩陣B，通過圖像對矩陣進行抽象，并利用圖像讀取原函數訪問，如第一部分中的圖3所示。對于其他矩陣，都使用全局內存緩沖區進行存儲和訪問。這也是為什么為矩陣A和矩陣B應用不同的內存分配方式的原因。而在矩陣C的訪問和表示中，因為只需要往矩陣C是寫入數據，并且每個矩陣元素只需要寫一次，到C的流量非常低，所以矩陣C將始終通過直接路徑訪問。

矩陣A和C的內存分配

下面例程顯示了如何分配可以通過直接路徑訪問的矩陣A和C，這一點相對簡單：

cl::Buffer * buf_ptr = new cl::Buffer(*ctx_ptr, CL_MEM_READ_WRITE | CL_MEM_ALLOC_HOST_PTR, na * ma * sizeof(T));

T * host_ptr = static_cast (queue_ptr->enqueueMapBuffer( *buf_ptr, CL_TRUE, CL_MAP_WRITE, 0, na * ma * sizeof(T)));

lda = na;

圖4通過L2緩存加載的矩陣的內存分配（A和C）

根據前面介紹，為矩陣A和C分配內存中，我們是想得到一個可以被CPU運算訪問的主機指針（CPU指針），并且希望可以通過該指針對CPU上的緩沖區進行寫入和讀取操作。因此，上述代碼的第1行中調用OpenCL的Buffer函數實現了內存分配，并得到了指向CL緩沖區的指針。

·???????? 該驅動程序分配一個緩沖區。

·???????? CL_MEM_ALLOC_HOST_PTR宏表示該內存可以被主機訪問。

·???????? 通過na和ma我們可以指定矩陣的水平和垂直維度。

注意，這里的內存不能使用malloc()函數在主機CPU上分配；必須在GPU空間中進行分配，并在CPU代碼可以寫入之前，將分配得到的內存顯式映射到具有CL API映射函數的CPU地址空間。

在調用buffer函數完成了緩沖區內存分配之后，我們必須得到host_ptr指針，在CPU上通過該指針可以訪問分配的矩陣內存。

為了得到host_ptr指針，在圖4所示代碼的第2行中，我們調用了OpenCL API中的enqueueMapBuffer，使用第1行代碼中得到的緩沖區指針buf_ptr來獲得host_ptr指針。enqueueMapBuffer函數返的host_ptr指針是一個T類型的指針（示例中T是浮點數），使用host_ptr指針可以在CPU上對分配得到的矩陣緩存區內存進行讀寫。如果我們已經分配了矩陣A，這就是我們用來傳遞該矩陣的指針。

接著我們看到圖4中代碼的第3行，這里通過lda 確定矩陣每行使用的內存量，以類型T為單位。因此，如果我們在程序中分配一個100×100矩陣，則lda將為100個T類型長度的內存空間。（注意，lda不一定等于矩陣的水平維度；在某些情況下，lda可能與之不同）。

這里，我們在主機端將lda、ldb和ldc提交給內核，以指定矩陣A、B和C的行距。

矩陣B的內存分配（圖像）

接下來我們來了解矩陣B是如何分配的，矩陣B的分配比前面介紹的矩陣A和C的分配更復雜，因為在矩陣B的分配中我們使用了2D圖像。

圖像比緩沖區限制更加嚴格。它們通常擁有4個顏色通道（RGBA），并且在內存中為圖像分配內存空間的時候必須保證適當的對齊。這里，我們先假定一個圖像，并且圖像的每個顏色分量是一個浮點數。如果我們從矩陣的角度來觀察圖像，我們希望平展顏色分量。如上所述，為提高效率，我們通過一個包括4個float類型數據的向量運算來讀取矩陣，將元素按每4個float類型打包到圖像像素中。因此，我們在計算過程中必須將矩陣的水平大小除以4，這樣我們表示的才是圖像的像素數量，具體實現代碼如下圖5所示：

cl::Image * img_ptr = new cl::Image2D(*ctx_ptr, CL_MEM_READ_WRITE | CL_MEM_ALLOC_HOST_PTR, cl::ImageFormat(CL_RGBA, CL_FLOAT), na/4, ma, 0);

cl::size_t<3> origin;

cl::size_t<3> region;

origin[0] = 0; origin[1] = 0; origin[2] = 0;

region[0] = na/4; region[1] = ma; region[2] = 1;

size_t row_pitch;

size_t slice_pitch;

T * host_ptr = static_cast (queue_ptr->enqueueMapImage( *img_ptr, CL_TRUE, CL_MAP_WRITE, origin, region, &row_pitch, &slice_pitch));

ldb = row_pitch / sizeof(T);

圖5：通過紋理管道（texture pipe） (B)加載的float32矩陣進行內存分配

上述代碼中，第1行通過調用OpenCL中的Image2D函數來分配內存，與A和C的內存分配一樣，使用了CL_MEM_ALLOC_HOST_PTR宏來指定分配的內存可以從主機端訪問。

分配得到圖像可以從主機端訪問的圖像內存后，接著看第8行，通過enqueueMapImage返回可以在CPU端使用的指針host_ptr（和前面矩陣A和C使用的enqueueMapBuffer類似），并確保我們在GPU內存中分配的圖像區域對于CPU可見。在CPU端可以通過host_ptr訪問到該圖像數據。

從CPU調用內核函數

前面已經介紹了如何分配內存，接下來介紹如何從CPU調用內核函數，該操作包括三個步驟：

·???????? 從CPU中取消映射，使矩陣A和B針對GPU更新。

·???????? 運行內核函數。

·???????? 重新映射，使得矩陣C中的結果對于CPU可見。

這個過程中我們還必須將A和B的內存映射回CPU，以便CPU可以更改這些矩陣；但是，這些更改不能同時被GPU和CPU獲取，需要一個同步的過程。在下面的列表中，我們利用了Snapdragon處理器上的共享虛擬內存（SVM）方法來實現內核函數運行周期和內存同步：

// update GPU mapped memory with changes made by CPU

queue_ptr->enqueueUnmapMemObject(*Abuf_ptr, (void *)Ahost_ptr);

queue_ptr->enqueueUnmapMemObject(*Bimg_ptr, (void *)Bhost_ptr);

queue_ptr->enqueueUnmapMemObject(*Cbuf_ptr, (void *)Chost_ptr);

// run kernel

err = queue_ptr->enqueueNDRangeKernel(*sgemm_kernel_ptr, cl::NullRange, global, local, NULL, &mem_event);

mem_event.wait();

// update buffer for CPU reads and following writes

queue_ptr->enqueueMapBuffer( *Cbuf_ptr, CL_TRUE, CL_MAP_READ | CL_MAP_WRITE, 0, m_aligned * n_aligned * sizeof(float));

// prepare mapped buffers for updates on CPU

queue_ptr->enqueueMapBuffer( *Abuf_ptr, CL_TRUE, CL_MAP_WRITE, 0, k_aligned * m_aligned * sizeof(float));

// prepare B image for updates on CPU

cl::size_t<3> origin;

cl::size_t<3> region;

origin[0] = 0; origin[1] = 0; origin[2] = 0;

region[0] = n_aligned/4; region[1] = k_aligned; region[2] = 1;

size_t row_pitch;

size_t slice_pitch;

queue_ptr->enqueueMapImage( *Bimg_ptr, CL_TRUE, CL_MAP_WRITE, origin, region, &row_pitch, &slice_pitch);

圖6：內核函數運行周期和內存同步過程

上述代碼實現分為兩個部分，其中第一部分是使用enqueueUnmapMemObject函數調用取消映射過程。需要傳遞對CPU端矩陣做出的所有改變，使其對于GPU可見，供乘法使用。這是一個緩存一致性事件：我們分配了矩陣A和B，在CPU端傳播，然后使它們對GPU可見，而不是復制內存。

完成了第一部分的處理，到了第二部分，GPU現在可以看到分配的矩陣了，并且可以使用。enqueueNDRangeKernel運行將對矩陣進行運算的內核函數。（經驗豐富的OpenCL程序員知道如何設置內核函數的參數，為簡潔起見，在此予以省略）。

第二部分的其余部分大同小異，不過與第一部分相反。內核函數將矩陣乘以矩陣C，因此現在我們需要使矩陣C對CPU可見。MM運算經常重復，因此我們將A和B內存映射回CPU，為下一個運算周期做好準備。在下一次迭代時，CPU能夠為A和B分配新值。

運行在GPU上的內核函數代碼

前面已經知道了如何進行內存分配和內核函數的調用，為了進一步了解整個MM運算的性能，我們來分析運行在GPU上的MM運算內核函數代碼，這部分代碼說明了擁有float 32格式元素的MM運算的本質。它是BLAS庫中SGEMM運算的簡化版本，C = αAB + βC，（為簡潔起見）其中，α= 1和β= 0。

__kernel void sgemm_mult_only(

??? ?????????????????????? __global const float *A,

??? ?????????????????????? const int lda,

??? ?????????????????????? __global float *C,

??? ?????????????????????? const int ldc,

??? ?????????????????????? const int m,

??? ?????????????????????? const int n,

??? ?????????????????????? const int k,

??? ?????????????????????? __read_only image2d_t Bi)

{

??? int gx = get_global_id(0);

??? int gy = get_global_id(1);

if (((gx << 2) < n) && ((gy << 3) < m))

??? {

??????? float4 a[8];

??????? float4 b[4];

??????? float4 c[8];

for (int i = 0; i < 8; i++)

??????? {

??????????? c[i] = 0.0f;

??????? }

int A_y_off = (gy << 3) * lda;

for (int pos = 0; pos < k; pos += 4)

??????? {

??????????? #pragma unroll

??????????? for (int i = 0; i < 4; i++)

??????????? {

??????????????? b[i] = read_imagef(Bi, (int2)(gx, pos + i));

??????????? }

int A_off = A_y_off + pos;

#pragma unroll

??????????? for (int i = 0; i < 8; i++)

??????????? {

??????????????? a[i] = vload4(0, A + A_off);

????????????? ??A_off += lda;

??????????? }

#pragma unroll

??????????? for (int i = 0; i < 8; i++)

??????????? {

??????????????? c[i] += a[i].x * b[0] + a[i].y * b[1] + a[i].z * b[2] + a[i].w * b[3];

??????????? }

}

#pragma unroll

??????? for (int i = 0; i < 8; i++)

??????? {

??????????? int C_offs = ((gy << 3) + i) * ldc + (gx << 2);

??????????? vstore4(c[i], 0, C + C_offs);

??????? }

??? }

}

圖7：實現C = A * B矩陣運算的內核函數示例

一般而言，我們會展開固定大小的循環，然后將從矩陣A中讀取圖像和數據的操作進行分組。具體過程如下：

·???????? 開始時，我們設置了一些限制，確保在處理矩陣時不致嚴重限制其維度，因此可以部分占用工作組。每個工作組水平和垂直地覆蓋一定數量的micro-tile，但是視乎不同的矩陣維度，我們可能面臨這樣的情況，即macro-tile中的micro-tile僅部分被矩陣占用。因此，我們要跳過macro-tile未占用部分中的任何運算；這就是這個條件的作用。矩陣維度仍然必須是4x8的倍數。

·???????? 然后，通過代碼將矩陣C的元素初始化為零。

·???????? 最外層的for循環遍歷pos參數，并包含三個子循環：

·???????? 第一個子循環中，我們通過擁有read_imagef函數的TP/L1讀取矩陣B的元素。

·???????? 第二個子循環包含直接從L2讀取的矩陣A的元素值。

·???????? 第三個子循環計算部分點積。

·???????? 注意，為提高效率，所有加載/存儲和ALU操作均使用由4個float元素構成的向量。

通過上述代碼分析，整個內核函數可能看起來比較簡單，但實際上它是一個經過高度優化、均衡的運算和數據大小組合。在使用的過程中南建議使用-cl-fast-relaxed-math標記編譯內核函數。

工作組大小

根據上述分析，macro-tile是由多個4×8 micro-tile組成。水平和垂直維度中micro-tile確切數量由2-D工作組大小確定。通常，最好使用較大的工作組，避免GPU計算單元利用不足。我們可以使用OpenCL API函數getWorkGroupInfo查詢最大工作組大小。但是，上邊界為工作組中工作項的總數。因此，我們仍然可以在總的大小的限制下，自由選擇實際的維度組成。以下是查找正確大小的一般方法：

·???????? 最小化部分占用工作組的數量。

·???????? 基于不同大小的矩陣開發啟發式算法，并在運行時使用。

·???????? 使用為特殊情況量身定制的內核函數；例如，在矩陣維度特別小的時候。

·???????? 如果GPU卸載開銷成為瓶頸，就在CPU上完成小型MM運算。

開始行動

如本文中所示，MM是一項瓶頸運算，因此，您需要在OpenCL代碼中利用上述高性能技術。這是一種加速使用Adreno GPU上內存子系統的深度學習應用的有效方法。

更多Qualcomm開發內容請詳見：Qualcomm開發者社區。

閱讀全文

Qualcomm(51674) Qualcomm(51674)

使用CUDA并行化矩陣乘法加速Blender Python

　　這篇文章描述了兩種不同的加速矩陣乘法的方法。第一種方法使用 Numba 編譯器來減少 Python 代碼中與循環相關的開銷。第二種方法使用 CUDA 并行化矩陣乘法。速度比較證明了 CUDA 在加速矩陣乘法方面的有效性。

2022-04-24 17:04:51

4950

8.5部分實例

2015-03-12 17:44:47

Droppin'Traces：easyEDA的第1部分

一些良好的干凈的怪異樂趣。對于那些使用過不同EDA工具的人，我希望easyEDA.com的一瞥至少是有趣的，如果不是鼓勵，如果你想嘗試不同的東西。在本系列的第2部分中，我將分享我對KiCad的經歷

2018-11-01 15:54:02

FLUENT算例 —— Vertical Axis Wind Turbine (Part 1) 垂直軸風力機（第1部分）精選資料推薦

Wind Turbine (Part 1) 垂直軸風力機（第1部分）以ANSYS 17.0為例。該算例分為兩個部分，第一部分將采用運動參考系（Moving Frame of Reference（MRF...

2021-07-12 06:38:54

GB 7000.1-2015 燈具第1部分：一般要求與試驗

本帖最后由飛兒朵朵2012 于 2016-11-3 22:20 編輯 GB 7000.1-2015 燈具第1部分：一般要求與試驗

2016-09-18 22:02:20

GBT 20234.2-2015 電動汽車傳導充電用連接裝置第2部分交流充電接口

2018-03-22 08:02:30

IEC 62305-1（雷電防護第1部分總則）

IEC 62305-1（雷電防護第1部分總則）前言3簡介31. 范圍和目標.42. 規范性參考文件.43. 術語和定義.44. 雷擊電流參數... 95. 雷電的損害... 95.1 對建筑物

2011-01-22 17:03:54

MCC和引導加載程序代碼，代碼的一部分是指另一張圖片

看到，它可能是生成的一部分。ED代碼是指另一個PICIT是已知的bug？MPLABX iDEV3.30MCC V3.0PIC18F25K22MPASM 5.58現在感謝來自Italycarlo的LosioAO

2019-08-16 10:24:37

ORCAD同一個分裂的元器件，經過annotate之后，一部分的位號是U1，另一部分的位號為U2了，請問是什么問題，謝謝！

2016-11-23 17:47:31

PADSlogic電子檔第2部分

PADSlogic電子檔第2部分有需要的可以下載

2013-09-21 18:00:38

Protel99se 安裝好了，一部分ddb文件能打開一部分pcb格式打不開

Protel99se 安裝好了，一部分ddb文件能打開，一部分pcb格式打不開，該怎么辦

2011-12-21 20:14:15

Qualcomm Adreno SDK概述

初識Qualcomm Adreno SDK概述Adreno 是著名的Qualcomm Snapdragon SoC中的GPU計算單元。Qualcomm公司也為Adreno GPU硬件提供了單獨

2018-09-20 10:19:30

TCL93219421部分9621部分TDA3505TEA1014原理圖相關資料推薦

TCL 9321/9421部分/9621部分（TDA3505/TEA1014）原理圖文件下載

2021-06-25 08:32:05

TensorFlow指定CPU和GPU設備操作詳解

，如果系統有 3 個 GPU 設備，那么第一組乘法將由'/：gpu：1'執行，第二組乘以'/gpu：2'執行。解讀分析函數 tf.device() 選擇設備（CPU 或 GPU）。with 塊確保設備

2020-07-28 14:33:28

YY 0505-2012 醫用電氣設備第1-2部分安全通用要求并列標準電磁兼容要求和試驗

YY 0505-2012 醫用電氣設備第1-2部分安全通用要求并列標準電磁兼容要求和試驗（見附件）

2015-06-03 12:49:54

Zynq UltraScale + MPSoC Ubuntu第2部分 - 從源代碼構建和運行Ubuntu桌面

?-R5實時處理單元（RPU）和ARM?Mali?-400 MP2圖形處理單元（GPU）。它是業界首款多處理器SoC，可提供5倍系統級性能 - 每瓦特和任意對任意連接。本技術提示涵蓋了針對ZCU102板

2019-01-03 09:43:31

matlab 矩陣運算

matlab 矩陣運算矩陣運算MATLAB對矩陣的運算包括算術運算，關系運算和邏輯運算。算術矩陣運算矩陣的基本算術運算（當然標量是矩陣的特殊情況）有：+ 加法- 減法* 乘法/ 右除\ 左除^ 取冪

2009-09-22 15:32:42

multisim10.0中的儀器少了一部分

multisim中的儀器少了一部分求助啊卸載了幾次了

2013-10-31 00:33:18

ucos2源碼分析朱有鵬

ucos2源碼分析朱有鵬-內核部分-第4季第3部分視頻課程互聯網課程品牌《朱老...

2021-07-20 07:39:57

《RT-Thread 內核實現與應用開發實戰指南》免費下載

`本書第一部分以RT-Thread Nano 3.0.3官方源碼為藍本，抽絲剝繭，不斷迭代，教你怎么從0開始把RT-Thread內核寫出來。書中涉及到的數據類型，變量名稱、函數名稱，文件名稱，文件

2018-07-17 15:55:00

【下載】《工程與科學數值方法的MATLAB實現（第2版）》

`內容簡介《國外計算機科學經典教材：工程與科學數值方法的MATLAB實現（第2版）》共分6大部分。第1部分介紹數值方法的背景知識、MATLAB的軟件環境和編程模式，后5部分集中介紹數值方法的主要

2017-08-28 17:27:50

【安富萊——DSP教程】第20章 MatrixFunctions的使用（二）

第20章MatrixFunctions的使用（二）本期教程主要講解矩陣運算中的放縮，乘法和轉置。 20.1 矩陣放縮MatScale 20.2 矩陣乘法MatMult 20.3 轉置矩陣MatTrans 20.4 總結

2015-06-22 11:47:17

主要講解矩陣運算中的放縮，乘法和轉置

第22章 DSP矩陣運算-放縮，乘法和轉置矩陣本期教程主要講解矩陣運算中的放縮，乘法和轉置。目錄第22章 DSP矩陣運算-放縮，乘法和轉置矩陣22.1 初學者重要提示22.2 DSP基礎運算指令

2021-08-11 08:41:19

使用高速轉換器時，有哪些重要的PCB布局布線規則？(第3部分）

使用高速轉換器時，有哪些重要的PCB布局布線規則？第一部分討論了為什么AGND和DGND接地層未必一定分離，除非設計的具體情況要求您必須這么做。第二部分討論了輸電系統(PDS)，以及電源層和接地

2018-10-30 14:56:34

使用高速轉換器時，有哪些重要的PCB布局布線規則？（第2部分）

使用高速轉換器時，有哪些重要的PCB布局布線規則？（第2部分）本RAQ的第一部分討論了為什么AGND和DGND接地層未必一定分離，除非設計的具體情況要求您必須這么做。第二部分討論印刷電路板(PCB

2018-10-30 14:57:01

保護您的 IP 內核——第一部分軟 IP，第一節：HDL 代碼的加密

保護您的 IP 內核——第一部分軟 IP，第一節：HDL 代碼的加密 IEEE Std 1735 2014 IEEE IP HDL 源代碼保護加密和管理推薦實踐 IEEE Std 1735

2022-02-23 12:27:05

保護您的 IP 核——第一部分軟 IP——前言

核 – 第 I 部分軟 IP，第五部分：遠程激活保護您的 IP 內核 – 第 I 部分軟 IP，第 6 節：物理不可克隆函數 (PUF)保護您的 IP 核 – 第 I 部分軟 IP，第 7 節：密鑰

2022-02-23 11:59:45

醫用電氣設備第1部分：安全通用要求

GB 9706.1-2007 醫用電氣設備第1部分：安全通用要求

2014-12-23 16:12:22

在RK3399上運行開源的GPU驅動

，基本就沒法使用 GPU 加速了，這也是為什么我們目前看到的大部分開發板如果搭載了 mainline 內核，基本都不會有 GPU 加速功能，或者直接就不開圖形顯示功能。但是也有一部分黑客們不滿于這種

2022-10-20 17:44:37

在RK3399開發板上運行Arm mali GPU驅動

是為什么我們目前看到的大部分開發板如果搭載了 mainline 內核，基本都不會有 GPU 加速功能，或者直接就不開圖形顯示功能。但是也有一部分黑客們不滿于這種封鎖，他們勇于探索，積極嘗試，逆向了

2022-07-27 15:43:16

在STM32中執行中斷主要分三部分

在STM32中執行中斷主要分三部分：1.配置NVIC_Config()函數2.配置EXTI_Config()函數3.編寫中斷服務函數（注：本文章所用代碼為中斷按鍵代碼，實現了按鍵進入中斷從而控制

2021-08-13 08:10:37

在STM32中執行中斷主要分三部分

2021-08-20 07:53:57

如何使用M4 DSP來計算矩陣函數

代碼使用CMSIS DSP庫來計算矩陣函數,包括: 矩陣矩陣加矩陣減法乘法矩陣矩陣反向矩陣矩陣縮縮矩陣矩陣轉換用戶可以使用這些函數來實施數學方程式。樣本代碼比較了使用 DSP 計算時間

2023-08-22 07:22:43

如何使用M4 DSP來計算矩陣函數

2023-08-29 06:11:53

如何使用arm內核庫的矩陣計算函數

，要求逆還得編一個，求行列式還得編，而且自己寫的函數代碼效率低，本來要跑在單片機上的算法，就難達到計算速度。這篇教程將教會你如何使用arm內核庫的矩陣計算函數，讓你降低代碼編寫難度還能提高運算效率。筆者所知，目前ARM M4內核自帶DSP庫。

2021-07-16 06:56:52

如何找到我的代碼的一部分多長時間完成PSoC 5LP上的執行？

有沒有辦法找到我的代碼的一部分多長時間完成PSoC 5LP上的執行？謝謝你

2019-10-28 07:03:08

如何計算ARM內核矩陣？

2021-11-05 08:31:01

小編科普一種適用于Linux系統的Arm編譯器

的 Arm Compiler 的一部分提供。BLAS 性能改進自上一個版本以來，我們一直在繼續改進 BLAS（基本線性代數子程序）函數的實現，特別關注改進我們處理小問題的方式。我們注意到解決許多小問題對于許多

2022-07-18 16:33:52

工業驅動控制架構：第2部分

。很多正在被開發的驅動系統保持了與FPGA組合在一起的C語言可編程微控制器或微處理器。這個處理器的C代碼生成和調試開發環境被人所熟知，并且是必須的。現在，將一個FPGA引入到這個系統需要額外的開發流程

2018-08-31 15:06:33

布局電源板以最大限度地降低EMI：第1部分

2019-09-05 15:36:07

布局電源板以最大限度地降低EMI：第2部分

2019-09-06 08:49:33

帶通濾波電路只能看懂一小部分，求教分析指點

問題：1.第1部分看懂一點，第2部分完全不知道要干什么，第3部分那樣處理也不知道是要做什么。2.這個電路要實現的功能是一個從幾十到幾百赫茲的帶通濾波。3.已經用Multisim仿真過，得到的結果是

2018-07-26 10:00:39

建筑混合測試系統的第1部分

構建混合測試系統第1部分：為成功過渡奠定基礎

2019-11-06 09:36:06

微功率降壓/升壓電路第2部分：將四節電池轉換為5V

DN110- 微功率降壓/升壓電路，第2部分：將四節電池轉換為5V *

2019-06-11 16:31:41

怎么讀labview二進制文件的一部分

2014-04-22 09:59:53

手機GPU大全

高通（Qualcomm）不只是一家在移動SoC芯片和3G通信技術上造詣頗深的公司，而且是一家擁有移動GPU自主設計能力和生產能力的公司。移動GPU是SoC芯片的一部分，與ARM架構的通用處理器（CPU）一起構成SoC芯片體現應用性能的兩個重要部分。·······

2011-08-09 10:52:23

探究寬帶GSPS ADC中的DDC（第1部分）

。圖1.抽取系數為8時，每8個樣本僅選擇第8個樣本，拋棄7個樣本。你們猜猜第二個問題是什么？在第2部分中，我們將看看其他常見問題之一，敬請期待。

2018-10-26 11:16:21

每周分享之第一周：STM32部分知識共享

STM32部分知識共享：

2015-08-10 13:43:15

電源設計#6 高頻諧振轉換器設計注意事項，第2部分

第一部分重點介紹了影響諧振轉換器設計的關鍵寄生參數，以及元件選擇標準和變壓器設計。本部分重點介紹諧振轉換器同步整流器（SR）的設計注意事項。諧振轉換器中的工作狀態可能比脈寬調制轉換器中的工作狀態復雜

2020-08-02 10:34:49

硬件乘法器的相關資料分享

乘法器大大提高了 MSP430 單片機的數據處理能力，其支持的運算如下：硬件乘法器是外圍設備，不是MSP430 CPU的一部分。這意味著，它的活動不會干擾CPU活動。乘法器寄存器是通過CPU指令加載和讀取的外圍寄存器。如果一個中斷發生在寫入OP1之后，而在寫入OP2之前，使用乘法器對該中斷進行..

2021-12-09 07:05:15

第二部分基礎篇 - 第3章按鍵

的。圖 3-2 NVIC 在內核中的位置? NVIC 結構體成員當我們要使用 NVIC 來配置中斷時，自然想到 ST 庫肯定也已經把它封裝成庫函數了。查找庫幫助文檔，發現在 Modules->

2018-05-03 13:26:32

第二部分基礎篇 - 第2章 Systick系統定時器

庫函數。分析底層庫函數，要有 SysTick 定時器工作分析的知識準備。 ? 檢查輸入參數 SysTick_Confi g() 第 3 行代碼是檢查輸入參數 ticks，因為 ticks 是脈沖計

2018-04-28 13:12:28

視頻教程-STM32標準庫的引入視頻課程-第3季第6部分-單片機/工控精選資料分享

STM32標準庫的引入視頻課程-第3季第6部分互聯網課程品牌《朱老師物聯網...

2021-08-03 06:31:06

講解矩陣運算中的放縮，乘法和轉置

2021-08-11 06:05:03

請問C6748的DSPLIB中有double型矩陣乘法函數嗎？

我用的板子是6748，想對矩陣乘法進行優化，但發現674X 各個版本的DSPLIB里函數沒有dp的。是因為TI公司還沒有開發相應的函數嗎？還是因為我沒有找到呢？期待回復，謝謝！

2018-07-25 07:56:57

請問CC2650開發主機端發送數據包，從機代碼部分需要添加哪些函數？

請問在主機燒錄了simpleBLECentral,從機燒錄了 simpleBLEPeripheral。1.主機端發送數據包，從機代碼部分需要添加哪些函數？還是不用添加，只要連接就可以直接發送，對方就能收到？2 另外，傳輸數據包只能要 notify和indicate的方式嗎？謝謝！

2019-11-06 06:13:02

請問LAbview2012能截取圖片中的一部分的控件在哪？

LAbview2012能截取圖片中的一部分的控件在哪？？

2019-04-02 20:55:30

請問Mali GPU的并行化計算模型是怎樣構建的？

Mali T604 GPU的結構是由哪些部分組成的？Mali T604 GPU的編程特性有哪些？Mali GPU的并行化計算模型是怎樣構建的？基于Mali-T604 GPU的快速浮點矩陣乘法并行化該如何去實現？

2021-04-19 08:06:26

請問STM32部分重映射和完全重映射的區別是什么？

2022-02-21 06:42:07

請問dump.vcd波形為什莫有一部分沒有生成顯示出來？

我做.sv矩陣乘法的時候，生成dump.vcd觀察波形，輸入是a,b輸出是c，dump部分代碼寫的都一樣，但是不知道為什么vcd波形里只有a和b沒有c

2022-08-04 16:11:47

請問nice協處理器可以處理矩陣的乘法嗎？

請問nice接口可以運算矩陣的乘法嗎，例程中給了加法的運算，但是過程我沒太看明白，特別是fun3和fun7的定義，還有寄存器的使用，比如例程中： __STATIC_FORCEINLINE

2023-08-16 08:00:42

運放傳遞函數推導和零極點分析（TI運放穩定性合集第10部分）

[tr=transparent]如下圖，是TI運放穩定性合集（第10部分）關于雙反饋電路補償（圖中FB#1改成FB#2），最后兩個圖是關于FB#2反饋路徑傳遞函數和零極點的推導，求解，圖中畫紅線

2018-02-28 16:12:33

運算放大器穩定性分析（TI合集）第5部分 beta計算問題

在學習運算放大器穩定性分析（TI合集）第5部分的時候，計算beta是有點疑惑，為什么beta = VFB / delta VOA ?而不是beta = VFB / VOA?

2022-04-01 10:21:51

通過庫函數方式進行學習相關軟件

8　　第1部分：產品系列名，固定為STM32　　第2部分：產品類型；F表示這是Flash產品，目前沒有其它選項　　第3部分：產品子系列；103表示增強型產品，101表示基本型...

2021-08-20 08:13:45

高密度DC/DC轉換器的PCB布局第二部分

無數個小時為EMI、噪聲、信號完整性以及與較差布局相關的其它問題進行調試，這會讓設計人員感到非常高興。其它資源：在EDN上閱讀《DC/DC轉換器PCB布局》的第1部分、第2部分和第3部分。觀看

2018-09-05 15:24:34

高頻諧振轉換器設計注意事項，第2部分

2022-05-25 10:16:54

Linux內核源代碼

Linux內核源代碼本章講述在L i n u x內核源碼中，應該從何處開始查找特定的內核函數。本書并不要求讀者具有C語言編程能力，也不要求讀者有一份可參閱的L i n u x

2010-02-09 15:24:49

嵌入式LINUX內核網絡棧(源代碼)

本文選擇 LINUX-1.2.13 內核所包含的網絡部分代碼分析（注意網絡部分代碼與內核代碼的演變是分離的，如LINUX1.2.8 網絡代碼與1.2.13 是一樣的，而內核顯然是有差的）。LINUX-1.2.13 網絡部分

2011-05-12 10:39:46

Qualcomm宣布Adreno 530 GPU支持Vulkan API

Qualcomm Incorporated （NASDAQ： QCOM）今日宣布，其子公司Qualcomm Technologies， Inc.在集成于高通驍龍? 820處理器的Qualcomm? Adreno? 530 GPU上，實現了對Khronos?最新圖形和計算API——Vulkan?的支持。

2016-02-19 11:24:31

5800

乘法口訣源代碼

乘法口訣源代碼分享，有需要的朋友下來看看

2016-05-20 16:29:55

矩陣主機培訓資料

2017-01-04 14:42:38

Adreno GPU 矩陣乘法——第1講：OpenCL優化

文章中的概念和下一篇文章中的OpenCL代碼清單，表示Adreno 4xx和5xx GPU系列設備端矩陣乘法內核函數和主機端參考代碼的優化實現。我們希望本系列文章將幫助和鼓勵您使用這些想法和代碼示例寫出

2018-09-18 19:15:08

1553

使用英特爾ComposerXE 2015在C++中進行矩陣乘法

矩陣乘法：使用英特爾?數學核心函數庫和C++測試英特爾?ComposerXE 2015

2018-11-12 06:42:00

2657

如何使用英特爾SDK for OpenCL調試工具調試OpenCL主機和內核代碼

了解如何使用英特爾?SDKfor OpenCL?調試工具來調試OpenCL?主機和內核代碼

2018-11-08 06:33:03

5763

使用英特爾數學核心函數庫優化三重嵌套循環矩陣乘法

我們使用英特爾?數學核心函數庫（MKL）在Linux *上優化了三重嵌套循環矩陣乘法的版本。

2018-11-07 06:04:00

3313

OpenCL應用程序的主機代碼和內核元素

用于異構計算的OpenCL標準為實現OpenCL標準的所有計算設備定義了基本編程模型。該視頻介紹了OpenCL應用程序的主機代碼和內核元素。這些映射......

2018-11-30 06:17:00

1950

Adreno GPU助力電子設備可享受最佳的移動游戲體驗

近日，小米10、小米10 Pro和Redmi K30 Pro推出了Adreno GPU驅動更新功能，用戶可以像更新應用程序一樣簡單便捷地更新Adreno GPU驅動。

2020-04-30 11:25:24

2913

谷歌披露存高通驍龍Adreno GPU的高危漏洞

代碼細節可以訪問谷歌提供的列表。根據博文描述，Adreno GPU 驅動程序為每個內核圖形支持層（KGSL）描述符鏈接了一個私有設備結構，而描述符包含上下文切換所需的頁表。此結構與 process ID （PID）相關聯，但同一流程中可以被其他 KGSL 描述符重用，可能會提高性能。當調用進

2020-12-16 11:50:38

1114