# 整数計画問題を用いたパイプライン型CGRAのボディバイアス電圧最 適化

小島 拓也<sup>†</sup> 安藤 尚輝<sup>†</sup> 奥原  $\mathbf{M}^{\dagger}$  Ng.Doan Anh Vu<sup>†</sup> 天野 英晴<sup>†</sup>

† 慶應義塾大学大学院 理工学研究科 223-8522 神奈川県横浜市港北区日吉 3-14-1 E-mail: †{tkojima,ando,hayate,doan,hunga}@am.ics.keio.ac.jp

あらまし バッテリー駆動型のデバイスでは一定の性能を低消費電力で実現することが要求される。素粒度再構成可 能アクセラレータ(CGRA: Course Grained Reconfigurable Architecture)は高いエネルギー効率を持つことから関心 が集まっている。CGRAの一種であるVPCMA(Variable Pipelined Cool Mega Array)が提案されている。VPCMA は低電力で高い性能を得ることを目的としたパイプライン型のCGRAであり、パイプライン構成とボディバイアス電 圧を制御することで性能と電力のトレードオフを取ることができるアーキテクチャとして提案された。本研究では電 力を最小化するボディバイアス電圧を決定するために整数計画問題を利用する手法を提案した。整数計画問題を用い ることで先行研究と比べて短時間で最適な解を得ることができた。この手法のシミュレーションを行った結果ボディ バイアス制御をしない場合と比べて平均19.3%の電力削減率が得られた。

キーワード 整数計画問題, ILP, 電力最適化,SOTB,CGRA, ボディバイアス制御, 可変パイプライン

## Power Optimization for Pipelined CGRA with Intger Linear Program

Takuya KOJIMA<sup>†</sup>, Naoki ANDO<sup>†</sup>, Hayate OKUHARA<sup>†</sup>, Ng. DOAN ANH VU<sup>†</sup>, and Hideharu

## $AMANO^{\dagger}$

† Graduate School of Science and Technology, Keio University Hiyoshi 3–14–1, Kohoku-ku, Yokohama, Kanagawa, 223–8522 Japan

## 1. はじめに

近年 IoT への注目が高まり、ウェアラブルデバイスを始めと する多くのバッテリー駆動型のデバイスでは極めて小さな電力 で高い性能を達成することが要求されている。この要求を満た すデバイスとして高いエネルギー効率を持つ CGRA(Course-Grained Reconfiguable Architecture: 粗粒度再構成可能アーキ テクチャ)がある。CGRA は単純な演算を行う PE(Processing Element)をアレイ上に持ち、各 PE は相互に接続されネット ワークを構成している。各 PE での演算や接続を変化させるこ とで高効率に計算を行うことができる。

我々は CMA(Cool Mega Array) [2] のコンセプトを踏襲した 低電力 CGRA である VPCMA(Variable Pipelined Cool Mega Array) [1] を開発した。VPCMA は動的に再構成を行わない PE アレイと小さなマイクロコントローラを持つ。マイクロコン トローラにはバンク化されたメモリがあり、このメモリと PE アレイとの間のデータ転送などを行う。PE アレイは可変的な パイプライン構造を持ち、対象とするアプリケーションや要 求性能に応じて適切な構造へ変化させることができる。また、 VPCMA には FDSOI(Fully Depleted Silicon On Insulator) の一種である SOTB(Silicon On Thin Buried Oxide) プロセ スを適用した。これにより、ボディバイアス制御を行うことで 性能とリーク電力のトレードオフを調整することができる。

VPCMA の電力を削減する試みとしてまず初めにパイプラ イン構成のみを変化させる手法が検討された[1]。これに加えて ボディバイアス制御を行い、リーク電力を削減する手法が検討 された[3]。しかし、問題の複雑さから[3]では限られた数のパ イプライン構成のみを検討していた。本研究ではこの問題のモ デル式を見直し、整数計画問題へ帰着できることを明らかにし た。整数計画問題を用いることで、遺伝的アルゴリズムを代表 とするメタヒューリティクスなどの近似解を与える手法と異な り、短時間で数学的に最適な解を得ることが可能になった。本 研究の最適化結果は実チップの設計に基づくパラーメータを用 いたものであり、この結果は現在評価中の実チップに適用する ことが可能である。

以降では 2. 節で VPCMA の構成と SOTB 技術の概要を説 明する。3. 節では予備評価および最適化手法に関して説明す る。4. 節では電力最適化結果の評価を行う。5. 節では本論文の 結論を述べる。

## 2. VPCMA

### 2.1 VPCMA の構成

VPCMA は単純な CGRA である SF-CGRA(Straight Forward CGRA) に分類される。SF-CGRA はパイプライン化さ れた PE アレイ、データメモリ、それらを接続するネットワー クを持つ。計算に使用されるデータはメモリから読みだされ、 置換網を通り、パイプライン化された PE アレイの入力部へ 転送される。メモリと PE アレイのデータ転送における柔軟 性を高めるために用いられる。計算された結果は PE アレイ から出力され別の置換網を通ってメモリへ書き込まれる。こ れらのデータ転送はマイクロコントローラによって制御され、 PE アレイでの演算はコンフィグレーションデータによって 設定される。SF-CGRA は一般的な CGRA と比べて少ない頻 度でコンフィグレーションデータを動的に再構成するものも ある。SF-CGRA の代表例は Piperench [4]、Kilo-core [5]、S5 engine [6] である。

VPCMA は演算に必要ない他のエネルギー消費を削減するた めに SF-CGRA の中でも単純なアーキテクチャとなっている。 各 PE からレジスタファイルを取り除くことによって PE アレ イ内の各 PE にクロック分配を行う必要を無くしている。図 1 に示すように 12 列 8 行の PE でアレイを構成しており、各行の 間にパイプラインレジスタが配置されている。PE アレイの入 力には fetch レジスタが、出力には gather レジスタが接続され ていて、fetch レジスタに入力データを書き込むことで PE アレ イでの計算が開始し、数クロック後に gether レジスタに計算結 果が書き込まれる。図1にはPEの構成も示している。PEは ALU(arithmetic logic unit)、入力のセレクタ、SE(switching) element)から構成されている。PE 間の相互接続にはダイレク トリンクとアイランドスタイルのリンクの2種類が存在する。 ダイレクトリンクは ALU の出力を SE を経由することなく北 西方向、北方向、北東方向の PE へ転送するリンクである。ア イランドスタイルのリンクは SE を経由し ALU の出力だけで なく、隣接する PE からの入力を転送することも可能である。 南方向へのリンクは計算結果のみを転送するために使用される。

PE アレイの各行の間に配置されたパイプラインレジスタは 入力データをラッチするかバイパスするかの2つの動作が選択 可能であり、コンフィグレーションデータによって指定される。 これによって VPCMA はパイプライン構造を変更させること ができる。図2にパイプラインレジスタの実装方法を示す。マ ルチプレクサはコンフィグレーションデータに応じてバイパス からのデータかレジスタからのデータを選択して出力する。バ イパスモードの場合、マイクロコントローラは各レジスタに対 してクロックゲーティングを施し、電力を削減を図っている。

マイクロコントローラはマイクロコードを実行して、データ



図 1: PE アレイの構成と PE の構成



図 2: パイプラインレジスタの構造

メモリから読み込んだデータを fetch レジスタへ転送し、また gether レジスタから計算結果をデータメモリへ書き戻す。前者 を fetch 命令と呼び、後者を gather 命令と呼ぶ。gether 命令 は発行時すぐには実行されず、数クロックの遅延後に実行され る。これは PE アレイからの計算結果はデータ入力後すぐには 出力されないからである。データメモリと fetch,gether レジス タとのデータ転送を柔軟にするためにデータマニピュレータを 使用している。これは fetch,gether レジスタと対応するデータ メモリのアドレスをテーブルを用いて指定することで複雑なバ ンクアクセスを可能にしている。

#### 2.2 SOTB 技術

SOTB(Silicon on Thin Buried Oxide) は超低電力デバイス 技術研究組合 (LEAP) によって開発された SOf<sup>(注1)</sup>の一種であ る。10nm 程度の極薄の SOI 層と BOX 層<sup>(注2)</sup>がウェル基板の 上に積層されている。標準的なバルク CMOS テクノロジでは 微細化に伴いスレッショルド電圧のばらつきなどの特性のばら つきが問題であった。SOTB は特性ばらつきが小さくバルクと 比べて半分程度のばらつきに抑制されている。[7] これによりス レッショルド電圧を下げることが可能となり、低電力で動作さ せることが可能となる。さらに、BOX 層の下のウェル基板に ボディバイアス電圧を印加することによりリーク電流を制御す

<sup>(</sup>注1): SOI: Sillicon on Insulator

<sup>(</sup>注2): BOX:Buried Oxide



図 3: SOTB トランジスタの構造

ることが可能である。この印加する電圧をボディバイアス電圧 と呼び、ボディバイアス電圧を制御することによりリーク電力 を最適化することができる。

図3にSOTBトランジスタの構造を示す[8]。ボディバイアス 電圧のうち nMOS 側の電圧を VBN、pMOS 側の電圧を VBP とする。電源電圧を VDD とする時、以下のように VBP, VBN を設定すると nMOS、pMOS の性能のバランスをとることが できる。

$$VBN + VBP = VDD \tag{1}$$

VBN の値が負のときをリバースボディバイアス、0のとき をゼロバイアス、正のときをフォワードボディバイアスと呼ぶ。 ボディバイアス電圧を制御することにより発生する電力増加は 極めて小さい。[9],[10] ではボディバイアス電圧のジェネレー タが提案されており、実チップを用いたテストでこれらの電力 オーバーヘッドが小さいことが示されている。

2.3 行レベルのボディバイアス制御

マイクロコントローラによるデータ転送と PE アレイでの計 算はそれぞれオーバーラップして実行されるため、これらの性能 のバランスを揃える必要がある。このために CMA-SOTB [11] では PE アレイとデータメモリを含むマイクロコントローラを 別々のボディバイアスドメインとして、ボディバイアス制御を 行っていた。つまり、PE アレイ全体に一律のボディバイアス電 圧を与えていた。しかし、VPCMA が提案された [1] ではゼロ バイアスのみを想定し、パイプライン構造に焦点を当てていた。

本研究では各パイプラインステージの遅延を揃えるために、 PE アレイに対して行レベルのボディバイアスドメインを適用 して電力最適化を行う手法を提案する。パイプラインレジス タは PE アレイの外部にあり、マイクロコントローラと同じボ ディバイアスドメインとなる。そのため、マイクロコントロー ラと同じクロック周波数で動作することが可能である。

行レベルのボディバイアス制御において、リバースバイアス を用いるとクリティカルパスとならないパイプラインステージ の遅延を大きくし、各パイプラインステージの遅延時間の差を 小さくすることができる。一方フォワードバイアスをクリティ カルパスのステージに与えると動作可能な周波数をあげ、性能 を向上させることが可能になる。

#### 3. 提案手法

VPCMA においてはボディバイアス電圧とパイプライン段数

表 1: 性能-電圧のトレードオフ

|          | パイプライン段数  |                                        |  |  |  |  |
|----------|-----------|----------------------------------------|--|--|--|--|
|          | 大         | 小                                      |  |  |  |  |
| 性能       | 高         | 低                                      |  |  |  |  |
| レジスタ、    |           |                                        |  |  |  |  |
| クロックツリーの | 増加        | 減少                                     |  |  |  |  |
| 動的電力     |           |                                        |  |  |  |  |
| グリッチの    | ゴル        | 100-00                                 |  |  |  |  |
| 動的電力     | 洞少        | ////////////////////////////////////// |  |  |  |  |
|          | ボディバイアス電圧 |                                        |  |  |  |  |
|          | フォワードバイアス | リバースバイアス                               |  |  |  |  |
| 性能       | 低         | 高                                      |  |  |  |  |
| リーク電力    | 減少増加      |                                        |  |  |  |  |

を同時に変化させる場合、表1に示すトレードオフが存在する。 例えば、使用するパイプラインレジスタを増やし、段数を大き くするとパイプラインレジスタ、クロックツリーの電力が増加 する一方で、グリッチによる電力は低下する。グリッチとは計 算には本来不要なスイッチングにより消費される電力であり、 組み合わせ回路の各入力信号の遅延時間が異なることによって 発生する。パイプラインレジスタを使用すると、PEの行で発 生したグリッチによるスイッチングが次の行へ伝搬されなくな るためグリッチによる電力が削減される。

本研究ではボディバイアス電圧をパイプライン構造を考慮し ながら決定する手法を提案する。

#### 3.1 問題定義

V

前述のトレードオフを元に、与えられたアプリケーションに 対して性能と電力を最適化する二目的最適化問題を定義する。 この問題で用いるモデル式を以下に示す。

$$V_{ij} = \begin{cases} 1 & \text{if } i \, \mathfrak{F} \, \mathfrak{sho} \, \mathrm{PE} \, \mathcal{T} \mathrm{L} \, VBN_j \, \mathfrak{Eh} \mathfrak{sh} \mathfrak{sh}$$

$$preg_k = \begin{cases} 1 & \text{if } k$$
番目のパイプラインレジスタを使用  
0 otherwise (3)

 $P_{dyn} = f_{req} \times (E_{comb}(preg_k))$ 

$$+\sum_{k=0}^{6} (E_{reg} + E_{clk}) preg_k) \tag{4}$$

$$P_{stat} = \sum_{i=0}^{7} \sum_{j=0}^{12} P_{leak,row,j} V_{ij} + P_{leak,row,j} V_{ij}$$
(5)

$$D_{l} = \sum_{i=1}^{7} \sum_{j=1}^{12} D_{PE,j} V_{ij}$$

$$(6)$$

$$i=0 j=0$$
  
 $VBN_j$ は  $j$  番目のボディバイアス電圧であり、後述するように  
本研究では 13 種類のボディバイアス電圧を用いるため  $j$  の範  
囲は  $0 \sim 12$  を取る。 $V_{ij}$ は各行へのボディバイアス電圧の割り  
当てを示しており、VPCMA は 8 行の PE 行を持つため  $i$  は

"出  $0 \sim 7$ の範囲を取る。 $preg_k$ は k 番目のパイプラインレジスタ のコンフィグレーションであり、VPCMA では7本のパイプラ インレジスタを持つためkは $0 \sim 6$ の範囲を取る。 $P_{dyn}$ 、 $P_{stat}$ 

表 2: 予備評価の環境 設計 verilogHDL プロセス LEAP65nm/LPT-8 Synopsys Design Compiler 論理合成 2016.03-SP4 Synopsys IC Compiler 配置配線 2016.03-SP4温度  $25^{\circ}C$ Synopsys HSIM 遅延、リーク電力 2012.06-SP2 VDD: 0.55 Synopsys Prime Time 2012.12-SP3ダイナミック電力 VDD: 0.55 V Cadence NC-Verilog 動作シミュレーション 10.20 - s131



図 4: VPCMA の実チップ写真

はそれぞれ PE アレイの動的電力、静的電力を表す。 $E_{comb}$ 、  $E_{reg}$ 、 $E_{clk}$  はそれぞれ組み合わせ回路、レジスタ、クロックツ リーでの消費エネルギを表す。 $f_{req}$  は要求される動作周波数で ある。 $P_{leak,row,j}$  は  $VBN_j$  を印加した時の PE 行のリーク電 力、 $P_{leak,reg}$ 、 $P_{leak,clk}$  はレジスタ、クロックツリーでのリー ク電力である。 $D_l$  は PE アレイ内の全データパスのうち l 番 目データパスの遅延時間を表し、 $D_{PE,j}$  は  $VBN_j$  を印加した 時の PE の遅延時間を表す。

本研究では  $P_{dyn}$ 、 $P_{stat}$ の和を最小化を行う最適化問題を扱う。

#### 3.2 予備評価

3.1 節で示したモデル式で用いられる *P*<sub>leak,row,j</sub> などのパラ メータを得るために予備評価としてシミュレーションを行った。 予備評価のための評価環境を表 2 に示す。また、シミュレー ションは VPCMA の実チップ設計データを元に行った。図 4 に VPCMA の実チップ写真を示す。

 $P_{leak,row,j}$ 、 $D_{PE,j}$  は HSIM を用いて VBN を-2.0~0.4V の 0.2V ごとにシミュレーションを行った。 $P_{leak,row,j}$  は PE 行 全体に Low レベルを入力した場合と High レベルを入力した場 合のリーク電力の平均値とした。 $D_{PE,j}$  は ALU での演算種類 と入力値に依存する。そこで PE の入力値は IC compiler のタ イミング解析を元に演算種類ごとにクリティカルパスと成り得 る入力値を決定し、シミュレーションを行った。

 $E_{comb}$ 、 $E_{reg}$ 、 $E_{clk}$  は実行するアプリケーションによって異なる。本研究では表 3 に示す 4 つのアプリケーションをシミュ

表 3: シミュレーションしたアプリケーション

| アプリケーション      | 内容                  | PE アレイ使用行数 |
|---------------|---------------------|------------|
| af            | 24bit(RGB) アルファブレンダ | 7 行        |
| $\mathbf{sf}$ | 8bit セピアフィルタ        | 8 行        |
| sepia         | 24bit(RGB) セピアフィルタ  | 6 行        |
| gray          | 24bit(RGB) グレースケール  | 8 行        |

レーションした。PrimeTimeを用いて、固定の周波数、0.55 V の電源電圧 VDD において組み合わせ回路、レジスタ、クロッ クツリーの動的電力をシミュレーションし、それぞれ周波数で 割った値を  $E_{comb}$ 、 $E_{reg}$ 、 $E_{clk}$  とした。

解空間の分析を行うとそのサイズは  $2^7 \times 13^8$  である。まず、 VPCMA は 7 本のパイプラインレジスタを持ち、各々が 2 つの 動作モードを持つため  $2^7 = 128$  パターンのパイプライン構造 を取り得る。また行レベルのボディバイアス制御の場合、各 PE 行が 13 通りの VBN を取り得るため  $13^8$  パターンのボディバ イアス電圧が存在する。[3] では固定的なパイプライン構造にお いて、すべてのボディバイアス電圧のパターンを計算すると、 1.6GHz Dual-core Intel Core-i5、8GB の RAM の環境でおよ そ 3 時間を要した。

このような大きな解空間と Pstat のような複雑な式を扱う 場合、効率的に準最適解を求めるメタヒューリスティックの ような手法を用いることが多い。しかし、さらに分析を行っ た結果本研究で扱う問題は整数計画問題 (ILP: Integer Linear Program) で解くことが可能であると明らかになった。ILP は メタヒューリスティックとは異なり、最適解を求めることが可 能である。パイプライン構造を固定、つまり pregi を固定する と $P_{dyn}$ はVBNによらず一定の値となる。したがって、残り の式は線形となり ILP 解くことが可能となる。パイプライン構 造は 128 パターンあるため、128 個の ILP を解くことでパイプ ライン構造、ボディバイアス電圧を同時に制御した場合の最適 解を得ることができる。さらに、この問題の目的関数である性 能は ILP の制約条件として単純化することができる。したがっ て、実行するアプリケーション、パイプライン構造、要求性能 が与えらた上で、消費電力を最小化するボディバイアス電圧を 求める問題へと再定義する。このアルゴリズムのフローを図 5 に示す。

上述の ILP のモデル式を以下に示す。

$$\min P_{stat,rows} = \sum_{i=0}^{7} \sum_{j=0}^{12} P_{leak,row,j}(V_{ij})$$
(7)

subject to

$$\sum_{j=0}^{7} V_{ij} = 1 \quad \forall i = \{0, 1, \dots, 7\}$$
(8)

$$D_l \leq D_{req}, \quad \forall \text{ datapath } l$$

$$\tag{9}$$

$$V_{ij} = \{0, 1\}, \quad \forall i = \{0, 1, \dots, 7\},$$
 (10)

$$\forall j = \{0, 1, \dots, 12\}$$

制約条件 (8) は *i* 番目の行に対して 1 つの *VBN* を与えるた めの条件である。制約条件 (9) はすべてのパスの遅延が要求性

-4 -



図 5: アルゴリズムフローチャート

#### 表 4: 最適化の結果の例

**要求性能**: 3.9 ×10<sup>8</sup> ops/s

| パイプラインレジスタ i | 0    | 1    | 2    | 3    | 4    | 5    | 6    |      |
|--------------|------|------|------|------|------|------|------|------|
| $preg_i$     | 0    | 0    | 1    | 1    | 0    | 0    | 0    |      |
| 行番号          | 0    | 1    | 2    | 3    | 4    | 5    | 6    | 7    |
| VBN          | -0.8 | -0.8 | -1.0 | -0.6 | -1.2 | -1.2 | -1.4 | -1.4 |

要求性能: 7.8 ×10<sup>8</sup> ops/s

| パイプラインレジスタ i | 0   | 1   | 2    | 3   | 4   | 5   | 6   |      |
|--------------|-----|-----|------|-----|-----|-----|-----|------|
| $preg_i$     | 0   | 0   | 1    | 1   | 1   | 0   | 0   |      |
| 行番号          | 0   | 1   | 2    | 3   | 4   | 5   | 6   | 7    |
| VBN          | 0.0 | 0.0 | -0.2 | 0.2 | 0.2 | 0.0 | 0.0 | -0.2 |

能を満たすための条件である。*P<sub>leak,reg</sub>*,*P<sub>leak,clk</sub>*に関しては 本研究ではボディバイアス電圧制御を行わずに一定の値になる ため目的関数に入れる必要はない。

#### 4.評価

本研究で提案した最適化手法の効果を評価するために様々な 要求性能、3. 節で述べた4種類のアプリケーションで最適化を 行った。表4と図6にその最適化結果の2つの例を示す。性能 は1秒間にPEアレイで計算できる演算の数で表す。2つの例 はともにVDD: 0.55V、アプリケーションはgrayであり、一方 は要求性能が $3.9 \times 10^8$  ops/s、他方は $7.8 \times 10^8$  ops/s の場合 である。この例が示すように最適なパイプライン構造とボディ バイアス電圧は要求性能によって異なり、本手法はこれらを正 確に求めることができる。3. 節に示したものと同一の環境にお いて30~300秒程度ですべてのパイプライン構造の ILP を解 き、最適解を得ることができた。

 $3.9 \times 10^8$  ops/s が要求される場合、 $preg_i$ はパイプライン段数が3 であることを意味する。図 6a から  $3.9 \times 10^8$  ops/s のような比較的低い性能が要求される場合、-1.0V などの強いリバースパイアスによってリーク電力は極めて小さくなっている、そのため動的電力が支配的である。一方図 6bに示すように  $7.8 \times 10^8$  ops/s のような高い性能が要求される場合、低い性能の場合ほど静的電力は小さくない。これは要求性能を満たすために 3、4 行目に 0.2V のフォワードバイアスを与えている





図 7: 制御方法の違いによる比較

ためリーク電力が増加しているためである。

4.1 性能とエネルギー削減

本手法のエネルギー削減効果を確認するために、以下に示す 他の2つのボディバイアス制御方法との比較を行った。

- PE 全体に同一のボディバイアス電圧 (一律制御)
- ボディバイアス制御を行わない (ゼロバイアス)

図 7 に示すように、ボディバイアス制御を行うと達成可能な 性能を高めることができることがわかる。例えば、ゼロバイア スでは 3.12 × 10<sup>9</sup> ops/s を超える性能は実現できない。しかし、 一律制御と本手法はそれ以上の性能を実現することができる。

さらに、一律制御の場合と異なり、本手法では高い要求性能 においても急激な電力増加が発生していない。一律制御の場合 は要求を満たすために PE 全体にフォワードバイアスを与える 必要があるが、本手法ではクリティカルパスのボトルネックと なる PE 行のみにフォワードバイアスを適用すればよいので一 律制御と比ベリーク電力の増加を抑えることができる。

各アプリケーションでシミュレーションした全要求性能の平 均消費エネルギーを計算し、3つの制御手法の比較を行った。 図8は本手法の他の2つの手法に対するエネルギー削減率を 示している。本手法を用いることでgrayアプリケーションの 時にゼロバイアスに対して24.5%、一律制御に対して16.1%の エネルギー削減を達成している。また、全アプリケーションの 平均値ではゼロバイアスに対して19.3%、一律制御に対して 11.8%のエネルギー削減率を示している。

ボディバイアス制御の効果を確認するために静的電力に焦 点を当てる。図9はgrayアプリケーションの時のゼロバイア ス、一律制御に対する本手法の静的電力の削減率を表してい る。ゼロバイアスと比べて最大91.9%、一律制御と比べて最大

-5 -



図 8: 各アプリケーションでのエネルギー削減率



(×10<sup>9</sup> operations/sec)

図 9: 一律制御、ゼロバイアスと静的電力の比較

65.8%の削減率を示した。また図9によると本手法の静的電力 は必ずしも一律制御より小さいとは限らないことを明らかにし ている。例えば1.56×10<sup>9</sup>が要求された場合、本手法の静的電 力は一律制御と比べて90.9%高くなっている。しかしながら、 全体の電力は必ず本手法の方が小さくなっている。こうした静 的電力が増加する要求性能では最適なパイプライン構造が変化 する点でもあることが明らかとなり、パイプライン構造または ボディバイアス電圧のどちらか一方のみを考慮して最適化を 行った場合、このように静的電力と動的電力のバランスことは できない。

#### 5. 結 論

本研究では、パイプライン型 CGRA に対してパイプライン 構造とボディバイアス電圧を制御することで性能と電力の最適 化を行う手法を提案した。一見して複雑で大きな解空間を持つ 最適化問題であるが、適切なモデル式を用いることで整数計画 問題に単純化することができ、短時間で最適解を得ることがで きることを明らかにした。シミュレーションの結果、本手法を 用いることで要求性能を満たしながら従来の手法と比べてさら なる低消費電力を実現できた。シミュレーションを行ったアプ リケーションにおいては、平均でゼロバイアス時と比べ 19.3%、 PE アレイ全体で一律にボディバイアス制御を行う場合と比べ て 11.8%のエネルギー削減率を示した。

本手法のシミュレーションで使用した各種パラメータは実際 に開発したチップの設計に基づいているが、実チップ上での評 価はまだ実施しておらず今後行う予定である。また、本研究で は PE アレイの各 PE への演算のマッピングは固定して最適化 を行っている。しかし、ボディバイアスとパイプライン構造の 制御はマッピングに依存するため、マッピングも考慮して最適 化を行うことでさらに最適なボディバイアス電圧とパイプライ ン構造を発見できる可能性がある。

#### 謝 辞

本研究は、JSPS 科研費 (S) ビルディングブロック型計算シス テムに関する研究の助成を受けたものである。また、東京大学 大規模集積システム設計教育研究センターを通し、シノプシス 株式会社の協力で行われたものです。関係者の皆様に感謝致し ます。

#### 文 献

- N. Ando, K. Masuyama, H. Okuhara and H. Amano: "Variable pipeline structure for coarse grained reconfigurable array cma", 2016 INTERNATIONAL CONFERENCE ON FIELD-PROGRAMMABLE TECHNOLOGY, pp. 231–238 (2016).
- [2] N. Ozaki, Y. Yasuda, M. Izawa, Y. Saito, D. Ikebuchi, H. Amano, H. Nakamura, K. Usami, M. Namiki and M. Kondo: "Cool mega-arrays: Ultralow-power reconfigurable accelerator chips", IEEE Micro, **31**, 6, pp. 6–18 (2011).
- [3] 小島, 安藤, 松下, 奥原, 天野: "パイプライン段数とボディバイ アス電圧制御によるパイプライン型 cgra の電力削減手法の検 討", vol. 116, no. 510, CPSY2016-140 信学技報, pp. 51-56 (2017).
- [4] H. Schmit, D. Whelihan, A. Tsai, M. Moe, B. Levine and R. R. Taylor: "Piperench: A virtualized programmable datapath in 0.18 micron technology", Custom Integrated Circuits Conference, 2002. Proceedings of the IEEE 2002IEEE, pp. 63–66 (2002).
- [5] B. Levine: "Kilocore: Scalable, High Performance and Power Efficient Coarse Grained Reconfigurable Fabrics", Proc. of International Symposium on Advanced Reconfigurable Systems, pp. 129–158 (2005).
- [6] J. M. Arnold: "S5: the architecture and development flow of a software configurable processor", Proceedings. 2005 IEEE International Conference on Field-Programmable Technology, 2005.IEEE, pp. 121–128 (2005).
- [7] Y. Morita, R. Tsuchiya, T. Ishigaki, N. Sugii, T. Iwamatsu, T. Ipposhi, H. Oda, Y. Inoue, K. Torii and S. Kimura: "Smallest vth variability achieved by intrinsic silicon on thin box (sotb) cmos with single metal gate", 2008 Symposium on VLSI Technology, pp. 166–167 (2008).
- [8] T. Ishigaki, N. Sugii, R. Tsuchiya, S. Kimura and Y. Morita: "Ultralow-power LSI Technology with Silicon on Thin Buried Oxide (SOTB) CMOSFET.", chapter 7, pp. 145– 156, INTECH Open Access Publisher (2010).
- [9] Hiroki Nagatomi, et. al.: "A 361nA Thermal Run-away Immune VBB Generator using Dynamic Substrate Controlled Charge Pump for Ultra Low Sleep Current Logic on 65nm SOTB", Proceedings of the SOI-3D-Subthreshold Microelectronics Technology Unified Conference, pp. 1–2 (2014).
- [10] M. Blagojevi, M. Cochet, B. Keller, P. Flatresse, A. Vladimirescu and B. Nikoli: "A fast, flexible, positive and negative adaptive body-bias generator in 28nm fdsoi", 2016 IEEE Symposium on VLSI Circuits (VLSI-Circuits), pp. 1–2 (2016).
- [11] H. Su, Y. Fujita and H. Amano: "Body bias control for a coarse grained reconfigurable accelerator implemented with silicon on thin box technology", 2014 24th International Conference on Field Programmable Logic and Applications (FPL), pp. 1–6 (2014).