Source: http://marsee101.blog19.fc2.com/blog-entry-3402.html
昨日、MPSoC勉強会で、”MPSoCのPLの性能について”という発表をして来ました。MPSoC勉強会はいろいろと有意義なことが聞けて良かったです。中でもACPバスのコヒーレンシの制限についてはびっくりしました。良かったです。
このブログで、、”MPSoCのPLの性能について”を詳しく書いておこうと思います。
まずは、Zynq-7000 のC言語で書いた AXI4 Stream 版ラプラシアンフィルタを用意しました。
lap_filter_axis.h を貼っておきます。
// lap_filter_axis.h
// 2015/05/01#define HORIZONTAL_PIXEL_WIDTH 800
#define VERTICAL_PIXEL_WIDTH 600//#define HORIZONTAL_PIXEL_WIDTH 50
//#define VERTICAL_PIXEL_WIDTH 10#define ALL_PIXEL_VALUE (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)
lap_filter_axis.cppを貼っておきます。
//
// lap_filter_axis.cpp
// 2015/05/01
// 2015/06/25 : 修正、ラプラシアンフィルタの値が青だけ担っていたので、RGBに拡張した
//#include <stdio.h>
#include <string.h>
#include <ap_int.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>#include "lap_filter_axis.h"
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y(int rgb);int lap_filter_axis(hls::stream<ap_axis<32,1,1,1> >& ins, hls::stream<ap_axis<32,1,1,1> >& outs){
#pragma HLS INTERFACE axis port=ins
#pragma HLS INTERFACE axis port=outs
#pragma HLS INTERFACE s_axilite port=returnap_axis<32,1,1,1> pix;
ap_axis<32,1,1,1> lap;unsigned int line_buf[2][HORIZONTAL_PIXEL_WIDTH];
#pragma HLS array_partition variable=line_buf block factor=2 dim=1
#pragma HLS resource variable=line_buf core=RAM_2Pint pix_mat[3][3];
#pragma HLS array_partition variable=pix_mat completeint lap_fil_val;
do { // user が 1になった時にフレームがスタートする
ins >> pix;
} while(pix.user == 0);for (int y=0; y<VERTICAL_PIXEL_WIDTH; y++){
for (int x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
#pragma HLS PIPELINE
if (!(x==0 && y==0)) // 最初の入力はすでに入力されている
ins >> pix; // AXI4-Stream からの入力for (int k=0; k<3; k++){
for (int m=0; m<2; m++){
#pragma HLS UNROLL
pix_mat[k][m] = pix_mat[k][m+1];
}
}
pix_mat[0][2] = line_buf[0][x];
pix_mat[1][2] = line_buf[1][x];int y_val = conv_rgb2y(pix.data);
pix_mat[2][2] = y_val;line_buf[0][x] = line_buf[1][x]; // 行の入れ替え
line_buf[1][x] = y_val;lap_fil_val = laplacian_fil( pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
lap.data = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れるif (x<2 || y<2) // 最初の2行とその他の行の最初の2列は無効データなので0とする
lap.data = 0;if (x==0 && y==0) // 最初のデータでは、TUSERをアサートする
lap.user = 1;
else
lap.user = 0;if (x == (HORIZONTAL_PIXEL_WIDTH-1)) // 行の最後で TLAST をアサートする
lap.last = 1;
else
lap.last = 0;outs << lap; // AXI4-Stream へ出力
}
}return 1;
}// RGBからYへの変換
// RGBのフォーマットは、{8’d0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y = 0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int conv_rgb2y(int rgb){
int r, g, b, y_f;
int y;b = rgb & 0xff;
g = (rgb>>8) & 0xff;
r = (rgb>>16) & 0xff;y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
y = y_f >> 8; // 256で割るreturn(y);
}// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1 8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
int y;y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
if (y<0)
y = 0;
else if (y>255)
y = 255;
return(y);
}
Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトです。これで、AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 6.88 ns でした。
次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でプロジェクトを作って、Zynq-7010 と全く同じ AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 4.53 ns でした。
リソース使用量です。MPSoC の方がパイプライン段数が1段減っているので、FFとLUT の使用量が少なかったです。
Zynq-7000 が 6.88 ns で、145 MHz 動作、MPSoC が 4.53 ns で、221 MHz 動作なので、221/145 ≒ 1.52 倍 MPSoC が高速ということが言えると思います。
さて、AXI4 Stream 版ラプラシアンフィルタを IP にして、Vivado でプロジェクトを作って、実際の動作周波数を見てみましょう。
最初にZynq-7000 です。Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。
6.8 ns のタイミング成約を満足できました。147 MHz で動作できるという結果ですが、スラックを考えると 149 MHz で動作できることになります。
次に、次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でVivado 2015.4 のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。
LUT 使用量が Zynq-7000 よりもMPSoC の方が2倍以上多いですね。FF の使用量も 1.5 倍位になっています。Vivado HLSでの推計上はZynq-7000 の方がリソース使用量が少なかったので、これは周辺のIP の規模が違うのかもしれない?です。
タイミングは 3 ns の成約に対して、-0.029 ns 足りなかったです。よって、約 330 MHz で動作すると思います。
よって、Vivado での性能比は 330 MHz /149 MHz = 2.21 倍でした。
Vivado HLS で推定された性能比は、1.52 倍だったので、Vivado HLS の推計が少し甘いのかも知れない?ですね。
昨日、MPSoC勉強会で、”MPSoCのPLの性能について”という発表をして来ました。MPSoC勉強会はいろいろと有意義なことが聞けて良かったです。中でもACPバスのコヒーレンシの制限についてはびっくりしました。良かったです。このブログで、、”MPSoCのPLの性能について”を詳しく書いておこうと思います。まずは、Zynq-7000 のC言語で書いた AXI4 Stream 版ラプラシアンフィルタを用意しました。lap_filter_axis.h を貼っておきます。//