ハードウェアアクセラレーションチュートリアル

複数の計算ユニットの使用¶

バージョン: Vitis 2022.1

入門チュートリアル

このチュートリアルでは、FPGA 上のカーネルインスタンスの数を増やすための柔軟なカーネルリンクプロセスを示します。カーネルの各インスタンスは、計算ユニット (CU) とも呼ばれます。CU 数を増加するこのプロセスを使用すると、統合されたホスト/カーネルシステムの並列処理が向上します。

チュートリアルの概要¶

Vitis™ コア開発キットでは、デフォルトでカーネルごとに CU が 1 つずつ作成されます。ホストプログラムは、異なるデータセットに対して同じカーネルを複数回使用できます。この場合、カーネルに対して複数の CU を生成して、これらの CU を同時実行すると、システム全体のパフォーマンスを向上できます。

詳細は、『Vitis 統合ソフトウェアプラットフォームの資料』 (UG1416) のアプリケーションアクセラレーション開発フローの複数のカーネルインスタンスの作成を参照してください。

このチュートリアルでは、次を実行します。

ハードウェアエミュレーションを実行し、エミュレーションレポートを参照して、カーネルが順に複数回実行されることを確認します。
コマンドを順不同に実行できるようにホストコードを変更します。
カーネルリンクプロセスを変更し、同じカーネルの CU を複数作成します。
ハードウェアエミュレーションを再実行し、CU が同時実行されることを確認します。

このチュートリアルでは、画像フィルター例を使用して複数 CU の利点を示します。このチュートリアルでは、デザインをシンプルにするために、ホストアプリケーションは実画像ではなく、ランダムデータを画素に使用します。デフォルトでは、FPGA にはカーネルの CU が 1 つしか含まれないので、これら 3 つのカーネルは同じハードウェアリソースを使用して順次実行されます。このチュートリアルでは、CU の数を増加し、このカーネルを並列実行する方法を示します。

ホストコードの OpenCV バージョンは、ソースコードディレクトリ src/host/host_opencv.cpp でも提供されていますが、このチュートリアルでは OpenCV バージョンを使用する方法は説明しません。ホストコードの OpenCV バージョンは、OpenCV ライブラリをインストールし、Makefile で OpenCV の設定に関連する必要な変更をした後に使用できます。

開始前の確認事項¶

このチュートリアルでは、次を使用します。

BASH Linux シェルコマンド
2022.1 Vitis コア開発キットリリースおよび xilinx_u200_gen3x16_xdma_2_202110_1 プラットフォーム。必要であれば、ほかのバージョンおよびプラットフォームを使用するように変更することもできます。

重要:

例を実行する前に、『Vitis 統合ソフトウェアプラットフォームの資料』 (UG1416) のアプリケーションアクセラレーション開発フローのインストールの手順に従って、Vitis コア開発キットをインストールしておく必要があります。

ザイリンクス Alveo™ データセンターアクセラレータカードでアプリケーションを実行する場合は、Alveo ポートフォリオページの手順に従って、カードとソフトウェアドライバーを正しくインストールしてください。

チュートリアルリファレンスファイルの入手¶

リファレンスファイルを入手するには、ターミナルに git clone http://github.com/Xilinx/Vitis-Tutorials と入力します。
Hardware_Acceleration/Feature_Tutorials/05-using-multiple-cu ディレクトリに移動し、reference-files ディレクトリにアクセスします。

makefile フロー¶

このチュートリアルで使用する makefile は、reference-files/Makefile に含まれます。最上位設定には、次が含まれます。

VPP: カーネルコードをコンパイルする Vitis コンパイラパス。
EMCONFIGUTIL: エミュレーションコンフィギュレーションファイル emconfig.json を作成するユーティリティのパス。
DEVICE: ターゲットプラットフォーム。
EXE_OPT: コマンドライン引数として渡されるランタイムオプション: コンパイル済みカーネル xclbin ファイル。

ハードウェアエミュレーションの実行¶

次のコマンドでハードウェアエミュレーションを実行します。

make run TARGET=hw_emu

ハードウェアエミュレーション (hw_emu) では、カーネルコードはハードウェアモデル (RTL) にコンパイルされ、ハードウェアシミュレータで実行されますが、システムの残りの部分には C シミュレータが使用されます。ビルドおよび実行にかかる時間は長くなりますが、詳細でサイクル精度のカーネルアクティビティが表示されます。このターゲットは、FPGA で実行されるロジックの機能をテストして、初期パフォーマンス見積もりを取得する場合に便利です。

注記: ホストソフトウェアおよびハードウェアのビルド方法は、Vitis 入門チュートリアルを参照してください。

ホストコードの確認¶

エミュレーション run を実行中、別のターミナルで src/host/host.cpp ファイルを開きます。
234 ～ 236 行目を確認します。Y、U、および V チャネルを処理するためにフィルター関数が 3 回呼び出されています。
```
request[xx*3+0] = Filter(coeff.data(), y_src.data(), width, height, stride, y_dst.data());
request[xx*3+1] = Filter(coeff.data(), u_src.data(), width, height, stride, u_dst.data());
request[xx*3+2] = Filter(coeff.data(), v_src.data(), width, height, stride, v_dst.data());
```
この関数は、78 行目から記述されています。次の抜粋部分で、カーネル引数が設定され、カーネルが clEnqueueTask コマンドにより実行されます。
```
 // Set the kernel arguments
 clSetKernelArg(mKernel, 0, sizeof(cl_mem),       &mSrcBuf[0]);
 clSetKernelArg(mKernel, 1, sizeof(cl_mem),       &mSrcBuf[1]);
 clSetKernelArg(mKernel, 2, sizeof(unsigned int), &width);
 clSetKernelArg(mKernel, 3, sizeof(unsigned int), &height);
 clSetKernelArg(mKernel, 4, sizeof(unsigned int), &stride);
 clSetKernelArg(mKernel, 5, sizeof(cl_mem),       &mDstBuf[0]);

// Schedule the writing of the inputs
clEnqueueMigrateMemObjects(mQueue, 2, mSrcBuf, 0, 0, nullptr,  &req->mEvent[0]);

// Schedule the execution of the kernel
clEnqueueTask(mQueue, mKernel, 1,  &req->mEvent[0], &req->mEvent[1]);
```
これら 3 つの clEnqueueTask コマンドは、1 つの順序どおりのコマンドキューを使用してキューに追加されます (73 行目)。この結果、すべてのコマンドがキューに追加された順序で実行されます。
```
Filter2DDispatcher(
        cl_device_id     &Device,
        cl_context       &Context,
        cl_program       &Program )
  {
        mKernel  = clCreateKernel(Program, "Filter2DKernel", &mErr);
        mQueue   = clCreateCommandQueue(Context, Device, CL_QUEUE_PROFILING_ENABLE, &mErr);
        mContext = Context;
        mCounter = 0;
  }
```
エミュレーション結果¶

生成されたタイムライントレースレポート (opencl_trace.csv) を確認します。
```
vitis_analyzer xrt.run_summary
```
注記: run ディレクトリには、xrt.ini というファイルが含まれます。このファイルには、プロファイルサマリレポートおよびタイムライントレースなどの追加レポートを生成するランタイムオプションが含まれています。

Vitis アナライザーが開いたら、左パネルの [Timeline Trace] をクリックします。アプリケーションタイムラインレポートは、ホストとデバイスのイベント情報を収集し、共通のタイムラインに表示します。これは、システムの全体的な状態とパフォーマンスを視覚的に表示して理解するのに役立ちます。
- タイムラインの最下部に、ホストからキューに追加された各カーネルに 1 本ずつ、合計 3 本の青いバーがあります。1 つの順序どおりのコマンドキューが使用されているので、ホストはカーネル実行を順にキューに追加します。
- 青いバーの下に、各カーネル実行に 1 本ずつ、合計 3 本の緑色のバーがあります。これらは、FPGA で順に実行されます。
カーネルを同時にエンキューするためのホストコードの改善¶
1. src/host/host.cpp ホストファイルの 73 行目を変更します。この行を変更してコマンドキューを順不同コマンドキューとして宣言します。
  
  コード変更前:
  mQueue = clCreateCommandQueue(Context, Device, CL_QUEUE_PROFILING_ENABLE, &mErr);
  コード変更後:
  mQueue = clCreateCommandQueue(Context, Device, CL_QUEUE_PROFILING_ENABLE | CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE, &mErr);
2. (オプション) 変更したホストコードでハードウェアエミュレーションを実行します。
  
  ハードウェアエミュレーションを実行する場合、タイムライントレースを使用して、順不同コマンドキューを使用することによりカーネルがほぼ同時に実行されるように要求できまることを確認します (青のバーはホストでスケジュールされるカーネルエンキュー要求)。
  
  ホストはこれらの実行を同時にスケジューリングできますが、FPGA 上には 1 つしか CU がなく、カーネルは順次実行されるので、2 つ目および 3 つ目の実行要求は遅れます。
  
  次の手順では、FPGA 上の CU の数を増やして、ホストカーネルを同時に実行できるようにします。
CU 数の増加¶

次に、同じカーネルの CU を 3 つ生成するようにリンク手順を変更して、カーネル xclbin をビルドし直します。

link.cfg を開いて nk 設定を変更します。
```
nk = Filter2DKernel:3
```
ハードウェアエミュレーションの実行と変更の確認¶
1. xclbin ファイルを生成し直します。make clean を実行して 1 つの CU を含む既存の xclbin を削除してから、make を実行して 3 つのカーネル CU を含む新しい xclbin を作成する必要があります。
  make clean make run TARGET=hw_emu
2. Vitis アナライザーで新しい xrt.run_summary を表示します。
アプリケーションで 3 つの CU が使用され、カーネル実行が並列実行されるようになったので、アプリケーションの実行速度が上がりました。

まとめ¶

カーネルリンクプロセスを変更して、FPGA 上の同じカーネルインスタンスを同時に実行する方法を学びました。

メインページに戻る

ハードウェア アクセラレーション チュートリアル

複数の計算ユニットの使用¶

入門チュートリアル

チュートリアルの概要¶

開始前の確認事項¶

チュートリアル リファレンス ファイルの入手¶

makefile フロー¶

ハードウェア エミュレーションの実行¶

ホスト コードの確認¶

エミュレーション結果¶

カーネルを同時にエンキューするためのホスト コードの改善¶

CU 数の増加¶

ハードウェア エミュレーションの実行と変更の確認¶

まとめ¶

ハードウェアアクセラレーションチュートリアル

チュートリアルリファレンスファイルの入手¶

ハードウェアエミュレーションの実行¶

ホストコードの確認¶

カーネルを同時にエンキューするためのホストコードの改善¶

ハードウェアエミュレーションの実行と変更の確認¶