MPSoC勉強会で”MPSoCのPLの性能について”という発表をしてきた(サポート用のブログ)

2016年2月21日 | By News | Filed in: News.

Source: http://marsee101.blog19.fc2.com/blog-entry-3402.html

昨日、MPSoC勉強会で、”MPSoCのPLの性能について”という発表をして来ました。MPSoC勉強会はいろいろと有意義なことが聞けて良かったです。中でもACPバスのコヒーレンシの制限についてはびっくりしました。良かったです。

このブログで、、”MPSoCのPLの性能について”を詳しく書いておこうと思います。

まずは、Zynq-7000 のC言語で書いた AXI4 Stream 版ラプラシアンフィルタを用意しました。
lap_filter_axis.h を貼っておきます。

// lap_filter_axis.h
// 2015/05/01

#define HORIZONTAL_PIXEL_WIDTH 800
#define VERTICAL_PIXEL_WIDTH 600

//#define HORIZONTAL_PIXEL_WIDTH 50
//#define VERTICAL_PIXEL_WIDTH 10

#define ALL_PIXEL_VALUE (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)

lap_filter_axis.cppを貼っておきます。

//
// lap_filter_axis.cpp
// 2015/05/01
// 2015/06/25 : 修正、ラプラシアンフィルタの値が青だけ担っていたので、RGBに拡張した
//

#include <stdio.h>
#include <string.h>
#include <ap_int.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>

#include "lap_filter_axis.h"

int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y(int rgb);

int lap_filter_axis(hls::stream<ap_axis<32,1,1,1> >& ins, hls::stream<ap_axis<32,1,1,1> >& outs){
#pragma HLS INTERFACE axis port=ins
#pragma HLS INTERFACE axis port=outs
#pragma HLS INTERFACE s_axilite port=return

    ap_axis<32,1,1,1> pix;
    ap_axis<32,1,1,1> lap;

    unsigned int line_buf[2][HORIZONTAL_PIXEL_WIDTH];
#pragma HLS array_partition variable=line_buf block factor=2 dim=1
#pragma HLS resource variable=line_buf core=RAM_2P

    int pix_mat[3][3];
#pragma HLS array_partition variable=pix_mat complete

    int lap_fil_val;

    do {    // user が 1になった時にフレームがスタートする
        ins >> pix;
    } while(pix.user == 0);

    for (int y=0; y<VERTICAL_PIXEL_WIDTH; y++){
        for (int x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
#pragma HLS PIPELINE
            if (!(x==0 && y==0))    // 最初の入力はすでに入力されている
                ins >> pix;    // AXI4-Stream からの入力

            for (int k=0; k<3; k++){
                for (int m=0; m<2; m++){
#pragma HLS UNROLL
                    pix_mat[k][m] = pix_mat[k][m+1];
                }
            }
            pix_mat[0][2] = line_buf[0][x];
            pix_mat[1][2] = line_buf[1][x];

            int y_val = conv_rgb2y(pix.data);
            pix_mat[2][2] = y_val;

            line_buf[0][x] = line_buf[1][x];    // 行の入れ替え
            line_buf[1][x] = y_val;

            lap_fil_val = laplacian_fil(    pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
                                        pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
                                        pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
            lap.data = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れる

            if (x<2 || y<2// 最初の2行とその他の行の最初の2列は無効データなので0とする
                lap.data = 0;

            if (x==0 && y==0// 最初のデータでは、TUSERをアサートする
                lap.user = 1;
            else
                lap.user = 0;

            if (x == (HORIZONTAL_PIXEL_WIDTH-1))    // 行の最後で TLAST をアサートする
                lap.last = 1;
            else
                lap.last = 0;

            outs << lap;    // AXI4-Stream へ出力
        }
    }

    return 1;
}

// RGBからYへの変換
// RGBのフォーマットは、{8’d0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int conv_rgb2y(int rgb){
    int r, g, b, y_f;
    int y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8// 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
    int y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = 0;
    else if (y>255)
        y = 255;
    return(y);
}

Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトです。これで、AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 6.88 ns でした。
MPSoC_test1_24_160221.png

リソース使用量です。
MPSoC_test1_25_160221.png

メインのループのパイプライン段数は13 段です。
MPSoC_test1_26_160221.png

次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でプロジェクトを作って、Zynq-7010 と全く同じ AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 4.53 ns でした。
MPSoC_test1_27_160221.png

リソース使用量です。MPSoC の方がパイプライン段数が1段減っているので、FFとLUT の使用量が少なかったです。
MPSoC_test1_28_160221.png

メインのループのパイプライン段数は12 段です。
MPSoC_test1_29_160221.png

Zynq-7000 が 6.88 ns で、145 MHz 動作、MPSoC が 4.53 ns で、221 MHz 動作なので、221/145 ≒ 1.52 倍 MPSoC が高速ということが言えると思います。

さて、AXI4 Stream 版ラプラシアンフィルタを IP にして、Vivado でプロジェクトを作って、実際の動作周波数を見てみましょう。
最初にZynq-7000 です。Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。
MPSoC_test1_30_160221.png

ブロックデザインを拡大します。
MPSoC_test1_31_160221.png

インプリメントのSummary を示します。
MPSoC_test1_32_160221.png

6.8 ns のタイミング成約を満足できました。147 MHz で動作できるという結果ですが、スラックを考えると 149 MHz で動作できることになります。

次に、次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でVivado 2015.4 のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。
MPSoC_test1_33_160221.png

ブロックデザインを拡大します。
MPSoC_test1_34_160221.png

インプリメントのSummary を示します。
MPSoC_test1_35_160221.png

LUT 使用量が Zynq-7000 よりもMPSoC の方が2倍以上多いですね。FF の使用量も 1.5 倍位になっています。Vivado HLSでの推計上はZynq-7000 の方がリソース使用量が少なかったので、これは周辺のIP の規模が違うのかもしれない?です。

タイミングは 3 ns の成約に対して、-0.029 ns 足りなかったです。よって、約 330 MHz で動作すると思います。
よって、Vivado での性能比は 330 MHz /149 MHz = 2.21 倍でした。

Vivado HLS で推定された性能比は、1.52 倍だったので、Vivado HLS の推計が少し甘いのかも知れない?ですね。

昨日、MPSoC勉強会で、”MPSoCのPLの性能について”という発表をして来ました。MPSoC勉強会はいろいろと有意義なことが聞けて良かったです。中でもACPバスのコヒーレンシの制限についてはびっくりしました。良かったです。このブログで、、”MPSoCのPLの性能について”を詳しく書いておこうと思います。まずは、Zynq-7000 のC言語で書いた AXI4 Stream 版ラプラシアンフィルタを用意しました。lap_filter_axis.h を貼っておきます。//


发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注