# 自己タイミング型パイプラインシステムの性能見積りモデル

 $ar{}$  三宮 秀次 $^{\dagger}$  大森 洋 $-^{\dagger\dagger}$  酒居 敬 $-^{\dagger}$  岩田  $ar{} ar{} ar{}^{\dagger}$ 

A Performance Estimation Model of Self-Timed Pipelined Systems

Shuji SANNOMIYA<sup>†</sup>, Yoichi OMORI<sup>††</sup>, Keiichi SAKAI<sup>†</sup>, and Makoto IWATA<sup>†</sup>

あらまし 自己タイミング型パイプライン (STP) は,大域的なクロック信号による制御なしに,隣接するパ イプライン段間のハンドシェイク信号のみで大規模なパイプライン処理システムを構成できる回路構成法として 有望である.しかし,パイプライン段間のハンドシェイク信号の伝達を逐一模擬する,従来のシミュレーション では,迅速な性能見積りが困難であった.本論文では,大規模 STP システムの高速シミュレーションのために, リング型パイプライン内のパケットフローをマクロにとらえる性能見積りモデルを提案している.提案モデルで は,STP 内の総パケット数(負荷)が平均的なパケットの移動速度に与える影響を代数的に定式化した.本モ デルによって,シミュレーションに要する計算量を50%以上削減できる.また,提案モデルに基づくシミュレー ションによる性能見積り結果を,実際の STP チップの実測値と比較した結果,LSI 試作前の事前評価シミュレー ションとしては十分な精度で見積りが可能なことも確認した.

キーワード 自己タイミング型パイプライン,性能見積り,シミュレーション,マクロフローモデル

## 1. まえがき

大規模な集積回路チップシステムをすべてパイプラ イン実現する設計手法は,徹底的な分割統治型ハード ウェア構成法の一つである.つまり,パイプライン化 による処理能力向上だけでなく,設計時の組合せ論的 爆発の問題を回避できる[1].特に,自己タイミング型 パイプライン機構 STP (self-timed pipeline)は,隣 接するパイプライン段間でのみデータ転送制御信号を 局所的に授受するため,配線や電力消費を極小化でき るとともに,データ転送時にのみ電力を消費する自律 的な省電力機能も有している[2],[3].これらの STP の特徴を活用して,高速データパス回路,非同期回路 プロセッサ,大域非同期局所同期システムなど多数の 応用が検討されている[4]~[6].筆者らも既に,STP と極めて親和性の高いデータ駆動型メディアプロセッ サ DDMP (data-driven multimedia processor)を開 発し,映像信号処理やネットワークプロセッサへの応 用を検討している[2],[7].

本論文では,この STP を徹底的に活用して更に大 規模なシステムを組織的に構成する上で不可欠なリン グ型 STP の動作モデルを定式化して,これに基づく 高速な性能評価法を提案する.これにより,データ転 送を逐一綿密に模擬する従来の手法に比べて3倍以上 高速に性能見積りが行えることを示す.

一般に STP システムでは,信号の遷移やデータ授受 などのあらゆるイベントが,クロック同期システムの ように同期して離散化されず,すべて因果関係のみに よって生起する.このため,回路シミュレーションや システムレベルの動作シミュレーションには多大な時 間を要する[8].これまでにも,マルコフ連鎖による確 率過程解析モデル[9]や確率的なタイミング解析[10], あるいは回路レベルの信号タイミングをモデル化した Charie 図[11]に基づくタイミング解析が研究されて いるが,いずれのモデルでも具体的な入力データやプ ログラムを STP システム上で実行する際の性能見積 りを想定していない.また,従来の,時間ペトリネッ ト[12]等に基づき個々のデータ転送を逐一追跡する手 法では,データ数に比例して計算コストが掛かるため, 性能見積りの高速化が困難であった.

 <sup>&</sup>lt;sup>†</sup>高知工科大学大学院工学研究科,香美市
Graduate School of Engineering, Kochi University of Technology, Tosayamada-cho, Kami-shi, 782–8502 Japan
<sup>††</sup>九州大学大学院システム情報科学研究院,福岡市

Graduate School of Information Science and Electrical Engineering, Kyushu University, Hakozaki, Higashi-ku, Fukuokashi, 812–8581 Japan

電子情報通信学会論文誌 2009/7 Vol. J92-A No.7

これに対して本論文では,リング型 STP 内で転送 されるデータパケット(以降,単にパケット)の速度 V[パイプライン段/秒]に着目し,STP 内の総パケッ ト数が dV/dt に与える影響を代数モデルとして定式化す る.これにより,パイプライン段間で個々のパケット が転送されるタイミング(因果関係)を逐一綿密に考 慮しなくとも,マクロなパケットフローに関する動作 モデルのみで性能評価が可能になる.以下,2.では STP の動作特性を示し,3.でリング型 STP のマクロ フローモデルを提案し,4.において提案モデルに基づ くシミュレーションの精度が十分実用的であることを, 実際の STP チップの実測結果を用いて検証する.

## 2. STP システムの動作特性

本章では,まず STP の動作原理を示す.そして, STP 内で転送されるパケットの速度に着目して,性能 特性を議論する.更に,STP 内の総パケット数(すな わち,負荷)がパケットの速度に与える影響を考察し, STP システムの動作特性を議論する.

2.1 STP の動作原理

STP は基本的には図 1 のように構成される. 各パ イプライン段(以下,単にステージ)は,データラッ チ,処理回路,及び一致記憶フリップフロップ(Coincidence flip-flop: C素子)により構成される.直 線状の STP 内では各パケットはステージ間の制御信 号(send 信号,ack 信号)の伝達によって自律的に移 動する.図 2 に,制御信号の遷移を示す.ここでは, send 信号と ack 信号の伝達には,立上りと立下りを 同じ意味の信号とする遷移シグナリング[13]を用いて いる.一方,Master Reset 信号を0にすることによっ て STP 回路全体がリセットされ,また ToDL 信号が 1 のときに DL がオープンされる.

すなわち,まず,リセット時には,すべての C 素



子は後方ステージへ ack 信号を伝達する(図 2(0)). その後, Master Reset 信号を1にしてリセットを終 える.

(パケットの転送開始)C素子が前方ステージへ send<sub>i-1</sub> 信号を伝達する.同時に,データラッチが前方ステージへパケットを送信する.

(2) (ハンドシェイク)C素子は send<sub>i-1</sub> 及び ack<sub>i</sub> 信号が到着すると,データラッチ DL<sub>i</sub> を開ける.結 果,パケットが転送される.

(3) (ack 信号遷移) 同時に C 素子は, ack<sub>i-1</sub> 信 号を後方ステージに伝達し,後続パケットの転送を許 可するとともに,

(4) (send 信号遷移) send<sub>i</sub> 信号を前方ステージ に伝達し,前方ステージへのパケットの転送を開始す る<sup>(注1)</sup>.

(5) パケットがある限り(2)~(4)を繰り返す. 厳密には,ハンドシェイクのプロトコルには,前述 の遷移シグナリングと,信号レベルが0あるいは1の ときに信号の伝達を意味するレベルシグナリングがあ る[13].レベルシグナリングでは,1回のハンドシェ イクの間に,send信号とack信号が,それぞれ2回 遷移するが,パケットの転送手順は同じである.した がって,本論文では,両プロトコルを包含した一般的 な STP システムについて議論する.

以上のようなパイプライン段間の局所的な転送制御 により,STPには,(a)局所的な信号伝達のみによっ て動作時にだけ電力を消費する省電力特性や,(b)負



(注1):通常,パケットの値の正当性を保証するために,send 信号と ack 信号の遅延はそれぞれ,処理回路のクリティカルパス及びデータ ラッチのセットアップホールド時間に一致するように設計する. 荷の変動に対する自律緩衝能力(エラスティック能力) といった,高集積回路実現に適した特性がある[2].

2.2 STP 中のパケットの速度

前述のハンドシェイクを逐一模擬すれば,STP シス テム全体の挙動や性能を把握できる一方で,多大なシ ミュレーション時間が必要になる.これに対して本論 文では,STP 内で転送されるパケットの速度に着目し て,より簡易に STP システムの挙動を把握する方法 を提案する.以下では,まず,本論文における用語の 意味を定義する.

[ 定義 1 ] (パケットの速度 (V(t))) V(t)[ステージ/
秒] は,あるパケットが単位時間当りに転送されるステージ数である.

V(t)は STP 内で転送されているパケットの疎密状況によって変動する.これは,各パケットがハンドシェイク制御により転送されるためである.この疎密状況を定量的に議論するために,以下では,パケット間の距離 (D(t))を定義した後, $V(t) \ge D(t)$ の相関を説明する.

[定義2](パケット間距離(D(t)))D(t)[秒]は,あ る時刻tにおいて,隣接する二つのパケット間の時間 的な距離,すなわち後続パケットと先行パケットの間 にある回路のクリティカルパス上の信号伝搬時間で ある.

あるステージに着目すると、パケットが当該ステージを通過する最小時間であるハンドシェイク時間は、物理的な回路構成要素に基づき次のように定義される. [定義3](ハンドシェイク時間 $((T_f + T_r)))(T_f + T_r)$ ]秒]は、ステージごとの1回のハンドシェイクにかかる最小時間である、ここで、 $T_f$ [秒]と $T_r$ [秒]は、それぞれ send 信号と ack 信号の伝搬時間である.

以上の定義に基づき, $D(t) \ge V(t)$ の関係を次に説明する.まず,簡単化のため,全ステージの $(T_f + T_r)$ は同一とする.

 $D(t) \ge (T_f + T_r)$ となる場合,図2に示すように,send 信号の到着に先立ち,ack 信号が到着し,  $T_r$ は無視できる.このため,図3に示すように,  $D(t) \ge (T_f + T_r)$ となる範囲内であれば(図3(a)), 各パケットは $V(t) = \frac{1}{T_f}$ で前進する(図3(b)). 方,ハンドシェイクが延期され,パケットが一時的に 停止する場合,後続パケットは,send 信号の到達後も, ack 信号の到着を待つ(図3(c)).これを衝突と呼ぶ. この場合, $D(t) < (T_f + T_r)$ となり, $V(t) < \frac{1}{T_f}$ となる.



STP では、このような一時的な衝突は、自律的に 緩衝される.まず、先行パケットが衝突した場合でも、 後続パケットは可能な限り前進できる(図3(c)~(d)). また、STP では、ハンドシェイクが完了すると同時に パケットは前進を再開する.したがって、1ステージ の空きがあれば処理が継続される.このように、STP には、パケット密度の増加に伴う衝突により、たとえ 一部のパケット群で一時的に $D(t) < (T_f + T_r)$ となっ ても、 $D(t) \ge (T_f + T_r)$ を維持する、エラスティック 能力がある(図3(e)~(f)).したがって、一時的な衝 突がV(t)に与える影響も緩和される.

#### 2.3 マクロな動作特性

実際には,各ステージの $(T_f + T_r)$ は異なる.例え ば,複数のSTP との合流点における調停により,ハ ンドシェイクが延期される場合,これは直前のステー ジへの $T_r$ が伸びたとみなせる.また,設計ツールや 製造環境に依存する回路実現工程において,設計段階 で定めた平均遅延を厳密に保つのは困難であるため,  $(T_f + T_r)$ にばらつきが生じる.これらのことから,実 用的なSTP の模擬には,ステージごとに $T_f$ または  $T_r$ の異なるSTP をモデル化する必要がある. このような STP では ,  $(T_f + T_r)$  の最大値を  $T_{max}$ とおくと,パケットは自律的に  $D(t) \ge T_{max}$ を維持 しようとする.パケット数の増加により  $D(t) < T_{max}$ となると,常に衝突が発生し,待ち時間を後続パケッ ト群で緩衝しようとする.後続する個々のパケットは  $D(t) - T_{max}$ だけ時間的な余裕をもっており,この余 裕で待ち時間を吸収する.このため,STP へ流入する パケットに対する衝突の影響は隣接パケット間の D(t)の総和,つまり,一連の後続パケット群の両端のパケッ ト間の D(t)で決まる.よって,衝突の影響は,個々 のパケットの分布によらず,後続パケット数によって 決まる.したがって,V(t)はパケット数を基準に算出 でき,パケット群の疎密状況を追跡せずとも,STP の 挙動が模擬できる.

3. マクロフローモデル

本章では,STP システムの基本構成である,リング 型 STP の,マクロフローモデルを提案する.本モデ ルは,不連続に変化するパケットの速度 V(t) を,ハ ンドシェイク時間  $(T_f + T_r)$  とパケット間距離 D(t)の関係から,代数的に表現する.

3.1 リング型 STP

直線状の STP を環状に結合したリング型 STP は, プログラムの実行を行う環状データパス [2] や,演算 アルゴリズム中の繰返し構造を STP に写像した ALU 回路 [14] 等への応用が可能なため,大規模 STP シス テムを組織的に構成する上で不可欠な基本構成の一つ である.

リング型 STP は,図4 に示すように,直線状の STP の出口を入口に接続して,環状のパイプライン 内でパケットを転送する構成である.一般的には,二 つのパケット流を調停し合流させるマージステージ (M),及び一つのパケット流を選択し分流するプラン





チステージ (B) を配し,更にパケットの消去/複製を 行うステージ (A/C) を内蔵する.この構成では,パ イプライン容量が許す限りパイプライン処理を時間的 に重畳できるため,高いパイプライン並列処理性能が 期待できる.

このようなリング型 STP(以降,単に STP)で構 成するシステムの設計では,定常的に高いパイプライ ン利用率を維持するように,ハードウェア構成,すな わち M・B・A・C の配置やステージ数等と,応用プ ログラムを設計すれば,STPの処理能力をできる限 リ活用できる.こうした設計に基づくシステムでは, システム内に存在するパケットの総数(以降,P<sub>total</sub>) の時間的な変動は緩やかであるため,あるパケットが STP内を1周する間は,巨視的に,P<sub>total</sub> は単調に増 減するとみなせる.

前章に述べたように,直線状のSTPでは,D(t)と ( $T_f + T_r$ )の大小関係によって,衝突が生じない状態 (I)と生じる状態(II)がある.一方,リング型STPで は,衝突が生じる状態には,更に,その影響がSTPの エラスティック性により解消される状態(II-1)と,解 消されきれずにその影響が1周回する状態(II-2)があ る.これらのSTPの状態は, $P_{total}$ に応じて遷移す る.本論文では,それぞれを状態I,II-1,及びII-2と 呼ぶ.次節以降では,D(t)と( $T_f + T_r$ )を用いて,各 状態におけるV(t)を求めるとともに,各状態におけ る $P_{total}$ の上・下限を明らかにする.以降,STPのス テージ数,ステージ*i*における( $T_f + T_r$ ),全ステー ジの $T_f$ の合計,及び全ステージの $T_r$ の合計を,それ ぞれ,pl,( $T_{fi} + T_{ri}$ ), $\sum T_f$ ,及び $\sum T_r$ とおく.

3.2 状態 I

全ステージにおいて  $D(t) \ge (T_{fi} + T_{ri})$ , すなわ ち衝突がない状態を状態 I と呼ぶ.この状態では, STP のエラスティック能力により,  $(T_{fi} + T_{ri}) =$  $T_{max}((T_f + T_r) の最大値) であるステージ i (以降,$ 最大ステージ) を通過したパケット群では <math>D(t) は  $T_{max}$  以上に保たれる.このとき,各ステージでのパ ケットの転送時間において  $T_r$  は無視でき,パケット が1周する時間は $\sum T_f$  である.したがって, V(t) は 定数,

$$\frac{pl}{\sum T_f} \tag{1}$$

となる.

全ステージのハンドシェイク時間から D(t) =



図 5 パケットの模式図 (状態 I) Fig. 5 Temporal distance of packets (State I).

 $rac{\sum T_f + \sum T_r}{P_{total}}$ であるが,状態 I では衝突が発生せず,  $\sum T_r = 0$ である.このため,図 5 に示すように,  $P_{total}$ は, $D(t) \ge T_{max}$ となるよう,

$$\sum T_f \ge T_{max} \times P_{total} \tag{2}$$

を満たす必要がある.すなわち,状態Iにおける *P<sub>total</sub>*の上・下限は,

$$0 \le P_{total} \le \frac{\sum T_f}{T_{max}} \tag{3}$$

である.

3.3 状態 II-1

 $P_{total}$ の増加により,式 (3)が満たされないとき, 最大ステージの通過に際し,最初のパケット衝突が発 生する.このとき,STPのエラスティック能力により, 最大ステージを通過するパケットは, $T_{max}$ 以上に隔 てられるため,パケットは最大ステージの直前で,最 大 $T_{max}$ の間待つことになる.つまり,パケットが周 回する時間は,式(3)の右辺を超過するパケットーつ につき, $T_{max}$ 増加する.この状態を状態 II-1 と呼ぶ. したがって,状態 II-1 におけるV(t)は,

$$\frac{pl}{\sum T_f + T_{max} \times P_{over}} \tag{4}$$

となる.ここで, $P_{over}$ は,式 (3) の上限を超過した パケット数である.

状態 II-1 では,図6に示すように,衝突は,最大ス テージを起点に後方ステージに伝搬する.この範囲は, 各ステージがもつ時間的な余裕で決まる.最大ステー ジを $S_1$ ,後方のステージを順に $S_2$ , $S_3$ ,…, $S_{pl}$ と おくと, $S_i$ がもつ余裕時間は, $T_{max} - (T_{fi} + T_{ri})$ と なる.よって,衝突に影響されるステージ数nは,

$$P_{over} \times T_{max} \le \sum_{i=1}^{n} \{T_{max} - (T_{fi} + T_{ri})\}$$
 (5)



図 6 パケットの模式図(状態 II-1) Fig. 6 Temporal distance of packets (State II-1).

#### を満たす最小数となる.

状態 II-1 は,式(5)より, Pover が

$$P_{over} \le \frac{\sum_{i=1}^{n} \{T_{max} - (T_{fi} + T_{ri})\}}{T_{max}}$$
(6)

を満たす状態である. 左辺は,式(3)より,

$$P_{over} = P_{total} - \left\lfloor \frac{\sum T_f}{T_{max}} \right\rfloor \tag{7}$$

となる.右辺は衝突が1周するn = plのとき最大で,

$$\frac{\sum_{i=1}^{pl} \{T_{max} - (T_{fi} + T_{ri})\}}{T_{max}} = \frac{\sum_{i=1}^{pl} T_{max}}{T_{max}} - \frac{\sum_{i=1}^{pl} T_{fi} + \sum_{i=1}^{pl} T_{ri}}{T_{max}} = pl - \frac{\sum T_f + \sum T_r}{T_{max}}$$
(8)

となる.式(6)に式(7)と式(8)を代入すると,

$$P_{total} - \left\lfloor \frac{\sum T_f}{T_{max}} \right\rfloor \le pl - \frac{\sum T_f + \sum T_r}{T_{max}}$$
$$\left\lceil \frac{\sum T_r}{T_{max}} \right\rceil \le pl - P_{total} \tag{9}$$

となる. すなわち, 状態 II-1 における Ptotal の上限は,

$$P_{total} \le pl - \left\lceil \frac{\sum T_r}{T_{max}} \right\rceil \tag{10}$$

である.

3.4 状態 II-2

更なる P<sub>total</sub> の増加により,式(10)が満たされな いとき,図7に示すように,各ステージに衝突を緩 衝する余裕がないので,衝突の伝搬は1周回し,最大 ステージでの新たな衝突にまで波及する.すなわち, いったん発生した衝突はSTPを周回し続け,すべて



図 7 パケットの模式図(状態 II-2) Fig.7 Temporal distance of packets (State II-2).

のパケットがステージを前進するたびに衝突する.この状態を状態 II-2 と呼ぶ.

状態 II-2 では,全ステージで衝突が発生しており,パ ケットはパイプラインバブルとすれ違わない限り前進で きない.STP 中のバブルの総数を  $B_{total}$  (=  $pl-P_{total}$ ) とすると,パケットは,バブルの一団と1回すれ違 うことで, $B_{total}$  [ステージ] だけ前進できるから,パ ケットが STP を1周するには, $\frac{pl}{B_{total}}$ 回だけバブル の一団とすれ違うことになる.また,1回すれ違う ために,バブルの一団は, $pl - B_{total}$  [ステージ] だけ 前進する必要がある.これらのことから,パケット が STP を1周する時間は,バブルの一団が STP を  $\frac{pl}{B_{total}} \times (pl - B_{total}) \div pl = \frac{pl - B_{total}}{B_{total}}$ 回だけ周回す る時間で規定できる.ここで,バブルが STP を1周 する時間は, $\sum T_r$ である.

以上より, 状態 II-2 における V(t) は,

$$pl \div \frac{(pl - B_{total}) \times \sum T_r}{B_{total}} = \frac{pl}{\sum T_r} \times \frac{pl - P_{total}}{P_{total}}$$
(11)

となり, Ptotal に関して定義できる.

状態 II-2 における *P*<sub>total</sub> は , *pl* 未満であるため , 上 限は ,

$$P_{total} < pl \tag{12}$$

である.

以上より,リング型 STP の性能が, $P_{total}$  に関す る三つの状態において,V(t)を用いて統一的に扱える マクロフローモデルが定義できる.

3.5 実システムのシミュレーション

マクロフローモデルでは,単調に増減する  $P_{total}$  に 関して V(t) を定めた.一方,実システムでは,M・ B・A・C の動作により, $P_{total}$  が増減する.したがっ て、シミュレーションでは、 $P_{total}$  が変化した時点で、 STP 中のパケットの V(t) を再設定する.すなわち、  $P_{total}$  に変化がある時刻にイベントを発生させ、イベ ント内で、 $P_{total}$  に応じた V(t) に基づきパケットを 移動させて、 $P_{total}$  が変化する時刻に新たにイベント を発生させる、イベント駆動シミュレーションを採用 する.これにより、動的に負荷の変動する実システム の振舞いを、パケットの転送タイミングを逐一追跡す る従来の手法に比べて、高速に模擬できる.

また,実システムにおいて,合流 M では, M ステー ジへの send 信号の到着が遅い方のパケットの転送が, 最大で1パケット分の転送時間だけ遅れる.更に,複 製 C では,ラッチしたパケットを前方ステージに連続 して2回転送することで,1パケット分の転送時間の 遅延のみで複製が完了する.これらの遅延の影響は, 後続パケットを遅延させ,M/C ステージから離れる ほど小さくなる.これに対して,M/Cをもつ構成のシ ミュレーションにおいては,常にP<sub>total</sub> を P<sub>total</sub> + 1 とみなして,1パケット分の転送時間だけ全パケット を遅延させる.これにより,付加的な処理なく,M/C の影響を最大に見た安全側の見積りが期待できる.

3.6 パラメータ設定法

マクロフローモデルに基づくシミュレーションでは, pl と各状態における V(t) 及び  $P_{total}$  の上限値が必要 である.ここで,状態 I における  $P_{total}$  の上限値及び 状態 II-1 における  $P_{total}$  の上限値を,それぞれ, $P_{IU}$ 及び  $P_{II-1U}$  と呼ぶ.これらのパラメータは,システ ムの設計時に見積もられた,pl と, $(T_{fi} + T_{ri})$  から 算出する.つまり,システムの機能をパイプライン分 割する際に見積もられる論理ゲートや配線の遅延に基 づき, $T_{fi}$  と  $T_{ri}$  を決定し,パラメータ値を求める.

マクロフローモデルは,  $P_{IU}$ ,  $P_{II-1U}$ , 及び V(t)は, pl,  $\sum T_f$ ,  $\sum T_r$ , 及び  $T_{max}$  から導出できるこ とを示している.すなわち,  $(T_{fi} + T_{ri})$ の組合せに 対して, すべての組合せではなく, pl,  $\sum T_f$ ,  $\sum T_r$ , 及び  $T_{max}$  が変化する場合のみパラメータを設定して, シミュレーションを行えば十分である.よって,各ス テージごとにランダムなばらつきが想定される場合で も, 効率的に性能見積りが行える.

 $P_{IU}$  と  $P_{II-1U}$  は, それぞれ式 (3) と式 (10) より,

$$P_{IU} = \left\lfloor \frac{\sum T_f}{T_{max}} \right\rfloor, P_{II-1U} = pl - \left\lceil \frac{\sum T_r}{T_{max}} \right\rceil$$
(13)

であり,設計値により定まる.また,V(t)は,式(1),

式(4),及び式(11)より,設計値により定まる.

### 4. 評 価

自己タイミング型パイプライン機構 STP で実装さ れた実プロセッサ (DDMP) チップを対象に,前章で 導出したマクロフローモデルに基づくシミュレーショ ンを行い,シミュレーションに要した時間及び精度を, パケットの転送タイミングを逐一追跡する従来の手法 と比較し評価した.

#### 4.1 評価環境

マクロフローモデルに基づくシミュレータ,及びパ ケットの転送タイミングを逐一追跡する手法(注2)に基 づくシミュレータ(従来シミュレータ)は,Javaを用 いて実装した.これらのシミュレータは,応用プログ ラム,入力パケット,及びpl等のプロセッサ要素単位 の情報を入力として,タイムスタンプを付与した処理 結果パケットを出力する.そしてイベントごとに更新 されるパケットの位置に基づいて,プログラムに従っ た演算を適用する構成となっている.提案モデルによ る計算コスト削減の効果を示すため,モデルに依存す る部分以外は同一の実装とした.

また,LSIの製造工程における,( $T_{fi} + T_{ri}$ )のば らつきも反映するため,実際の DDMP チップから, **3.6**に述べたパラメータを採取した.DDMP は,複 数のリング型 STP プロセッサをパケットルータで接 続した CMP (chip multi-processor)構成をとってい る[2].図8に機能ブロックを示す.各プロセッサ要素 (PE)は,データ駆動型処理方式を採用しており,M・ B・A・Cに加え,パケットの待合せ,発火,演算,及 び次命令フェッチの各機能を STP 内の各処理回路に 分割して実装されている.また,10 個の PE があり, PE 間は,MとB で構成する多段パケットルータで結 合される.PE はステージ数と命令セットにより三つ



図 8 DDMP: リング型 STP システム Fig. 8 DDMP: A ring-style STP system.

に分類され,ここでは,それぞれ *PE*:*x*,*PE*:*y*,及 び *PE*:*z*とする.各 PE は,内部メモリアクセス命 令等の共通の命令以外に,*PE*:*x*は外部メモリアク セス,*PE*:*y*はタグ処理及び算術演算,更に*PE*:*z* は論理演算のための命令セットをもつ.

採取した各 PE のパラメータを表 1 に示す.表中, plはステージ数,また, $P_{IU}$ 及び $P_{II-1U}$ は,それぞ れ,状態 I 及び状態 II-1 における  $P_{total}$ の上限値であ る.また,V(t)は,最大値を  $1\left(\frac{pl}{\sum_{T_f}}=1\right)$ として, 式 (13)をもとに,正規化した値を算出した.これら は,システム設計時に見積ったパラメータと同等のも のである.

これらの環境に基づき,次節以降で,提案モデルに 基づくシミュレータ及び従来シミュレータの見積り値 と,実プロセッサの実測値を議論する.

4.2 負荷変動がない場合

まず,処理負荷,すなわち, $P_{total}$ が一定になるデー タ駆動プログラムを用いて比較評価を行った.実プロ セッサの実測値 (Real) を図 9 に示す.グラフの横軸 は STP の負荷すなわち  $\frac{P_{total}}{pl}$ であり,縦軸はV(t)で ある. $PE: y \ge PE: z$ の結果はほぼ一致しており, グラフ上の差異はないため,図には $PE: x \ge PE: y$ の結果のみを掲載する.結果から,段数や,各状態に おけるパケット数の上限値が異なる構成であっても, マクロフローモデルに基づく見積り (Macro-Sim.) は 実測値とほぼ一致している.

ここで,実プロセッサの実測値において,状態 I で あってもパケットの速度は微かに変動し,数%の揺ら ぎがある.これは,設計段階で定めた (*T<sub>fi</sub> + T<sub>ri</sub>*)が ばらついたことによる,パケット群の偏りが主因であ ると考えられる.このようなばらつきは,LSI チップ の製造ばらつきやチップ温度・電圧変動等に起因して おり,現行の LSI 製造・実装技術では不可避である. ところが,ばらつきによる偏りの性能見積りへの反 映は,半導体素子レベルの模擬を必要とし,設計中に は困難である.したがって,性能見積りでは,この揺

表 1 DDMP のパラメータ

| Table 1 Farameters for DDMF. |       |      |       |  |  |  |
|------------------------------|-------|------|-------|--|--|--|
|                              | PE: x | PE:y | PE: z |  |  |  |
| pl                           | 63    | 43   | 43    |  |  |  |
| $P_{IU}$                     | 34    | 31   | 30    |  |  |  |
| $P_{II-1U}$                  | 58    | 39   | 39    |  |  |  |

(注2): 図 2 に示した信号遷移を離散イベントとして逐一評価する手法。







らぎに対する,設計余裕を見込む必要がある.結果 のグラフでは, $P_{total} = P_{IU}$ におけるパケットの速 度を1として正規化している.この結果, $PE: x \ge PE: y(PE: z)$ では,それぞれ約3%と約4%の設計 余裕が必要と分かった.

以上のことから,マクロフローモデルによる見積り と従来シミュレータによる見積り(Existing Sim.)の 誤差は,この設計余裕内に収まっていれば許容できる. 実際,見積りの誤差は,いずれのPEでもすべて設計 余裕内に収まっており,マクロフローモデルは,従来 シミュレータと同等の十分な精度をもつといえる.

一方,マクロフローモデルに基づくイベント駆動シ ミュレーションは,従来シミュレータと比較して,計 算コストを大幅に削減できる.パケットの転送タイミ ングを逐一追跡するには,1パケットの移動(ハンド シェイク)につき,send信号の遷移とack信号の遷 移の2イベントが発生する.このため,総イベント数 はパケット数 P<sub>total</sub>に比例する.一方,マクロフロー モデルでは,全パケットの移動につき,唯一V(t)を 求めるだけであり,イベント数はパケット数に依存し ない.そのため,性能見積りに要する時間を50%以上



Fig. 10 Performance estimation for applications.

短縮でき,理想的には 1/P<sub>total</sub> まで短縮できる. 4.3 負荷変動がある場合

実際の応用プログラムでは,実行時に動的に処理負 荷, すなわち, Ptotal が変動する. DDMP が採用す るデータ駆動処理方式では,パケットが処理コンテク ストを内包するため,明示的なコンテクストスイッチ が不要である.このため,各プログラムの負荷の変動 を抑えれば,複数のプログラムを並列実行でき,高ス ループット化が期待できる.この場合,応用システム の開発においては,各プログラムが要求される入力 データレートで実行可能かどうかが第一の性能評価指 標になる.本評価では,応用プログラムの入力データ レートを固定して実行し,これと同時並行に,定常的 な負荷 (Background Load) を発生するプログラムを 実行した.追加する負荷の量を変えることによって, 状態 I, II-1, 及び II-2 で応用プログラムが動作する 状態を設定でき,三つの状態を扱えるマクロフローモ デルの有効性が判断できる.

また,応用プログラムとしては, *P*total が変動する 場合における提案モデルの見積り精度を評価するた めに, *P*total の時間的な増減が比較的大きいラプラシ アン近傍フィルタ (Filter) と,比較的小さい高速フー リエ変換 (FFT)を選択した.図10に,結果を示す. 図中横軸は負荷であり,縦軸は最良値を1とした処理

表 2 シミュレーション時間の比較 Table 2 Comparison of simulation time.

|                     | Simulation Time [s] |        |        |        |  |
|---------------------|---------------------|--------|--------|--------|--|
|                     | Fi                  | Filter |        | FFT    |  |
| Background Load     | 0%                  | 30%    | 0%     | 30%    |  |
| Macro-Simulation    | 19.40               | 38.04  | 24.38  | 62.80  |  |
| Existing Simulation | 62.12               | 121.33 | 104.58 | 205.80 |  |
| Speed-Up Ratio      | 3.20                | 3.19   | 4.29   | 3.28   |  |

レイテンシである.両プログラムとも,マクロフロー モデルに基づく見積りは,従来シミュレータの見積り との誤差が約3%の設計余裕内に収まっており,従来 シミュレータと同等の精度の見積りが可能である.ま た,実測値と比較して,オーバフロー点を安全側に見 積もっていることから,最終的な応用プログラムの動 作も保証できる.マクロフローモデルに基づく見積り と実測値との誤差は,約±4%であった.

両アプリケーションのシミュレーションに要した時 間を表 2 に示す.マクロフローモデルは,3 倍以上の シミュレーションの高速化を達成している.

本評価に用いた応用プログラムは,時間的な負荷の 増減を抑えるようにプログラムを最適化済である.こ れは,最適化によって,定常的に高いパイプライン利 用率を維持できて高性能化できるためである.実用的 な応用プログラムは通常,このような最適化を施され るため,P<sub>total</sub>の時間的な増減は Filter プログラムと 比較して同程度以下であるといえる.

以上より,実システムであっても,P<sub>total</sub>の時間的 な変動が極端ではない,すなわち Filter プログラムと 同程度以下であれば,マクロフローモデルは,LSI 試 作前の事前評価に十分な精度をもつ高速なシミュレー ションを実現可能である.

5. む す び

本論文では,自己タイミング型パイプライン機構 STPをパケットの速度でモデル化する,マクロフロー モデルを提案した.提案モデルでは,パイプライン内 で転送されるパケットの時間的な間隔に着目し,STP 中のパケット数に応じたパケットの速度の変化を代数 的に定量化することで,3段階に不連続に変化する実 システムの実効性能の見積りを可能とした.実際に, 提案モデルに基づくシミュレータを実装して,現行の LSI 製造技術に不可欠な設計余裕内でシミュレーショ ンが可能であることを示した.また,性能見積りでは, パケットの速度のみで,性能変化を統一的に扱うこと で,STPのパケット転送の網羅的な模擬が不要になり,3倍以上のシミュレーション時間の短縮が可能になった.

今後は,提案モデルをもとに,プロセッサ間相互通 信網等を含む STP チップ全体を対象にしたモデルに 関して検討する予定である.

謝辞 本研究は,科学技術振興機構「JST」の戦略 的創造研究推進事業「CREST」における研究領域「情 報システムの超低消費電力化を目指した技術革新と 統合化技術」の研究課題「超低消費電力化データ駆動 ネットワーキングシステム」による.

#### 献

文

- [1] 寺田浩詔, "超高速・低電力・高機能な新システム・アー キテクチャの考え方―刷り込みからの脱却",信学技報, ICD 2003-189, Dec. 2003.
- [2] H. Terada, S. Miyata, and M. Iwata, "DDMP's: Selftimed super-pipelined data-driven multimedia processors," Proc. IEEE, vol.87, no.2, pp.282–296, Feb. 1999.
- [3] I.E. Sutherland, "Micropipelines," Commun. ACM, vol.32, no.6, pp.720–738, June 1989.
- [4] A. Lines, "Nexus: An asynchronous crossbar interconnect for synchronous system-on-chip designs," Proc. 11th Annual Hot Interconnects Conf., pp.2–10, Stanford, U.S.A., Aug. 2003.
- [5] A. Takamura, M. Kuwako, M. Imai, T. Fujii, M. Ozawa, I. Fukasaku, Y. Ueno, and T. Nanya, "TITAC-2: A 32-bit asynchronous microprocessor based on scalable-delay-insensitive model," Proc. 1997 Intl. Conf. on Computer Design, pp.288–294, Austin, U.S.A., Oct. 1997.
- [6] T. Villiger, H. Kaslin, F.K. Gurkaynak, S. Oetiker, and W. Fichtner, "Self-timed ring for globallyasynchronous locally-synchronous systems," Proc. 9th Intl. Symp. on Asynchronous Circuits and Systems, pp.141–150, Vancouver, Canada, May 2003.
- [7] D. Morikawa, M. Iwata, and H. Terada, "Superpipelined implementation of IP packet classification," J. Intelligent Automation and Soft Computing, vol.10, no.2, pp.175–184, Aug. 2004.
- [8] 鹿毛哲郎, "VLSI 回路シミュレーション",信学誌, vol.83, no.11, pp.838-842, Nov. 2000.
- [9] A. Xie and P.A. Beerel, "Accelerating markovian analysis of asynchronous systems using string-based state compression," Proc. 4th Intl. Symp. on Advanced Research in Asynchronous Circuits and Systems, pp.247–260, San Diego, U.S.A., March 1998.
- [10] S. Chakraborty and R. Angrish, "Probabilistic timing analysis of asynchronous systems with moments of delays," Proc. 8th Intl. Symp. on Advanced Research in Asynchronous Circuits and Systems, pp.99– 108, Manchester, U.K., April 2002.

- [11] J.C. Ebergen, S. Fairbanks, and I.E. Sutherland, "Predicting performance of micropipelines using charlie diagrams," Proc. 4th Intl. Symp. on Advanced Research in Asynchronous Circuits and Systems, pp.238–246, March 1998.
- [12] W.M. Zuberek, "Event-driven simulation of timed petri net models," Proc. 33rd Annual Simulation Symp., pp.91–98, Washington, U.S.A., April 2000.
- [13] C.J. Myers, Asynchronous Circuit Design, Jhon Wiley & Sons, 2001.
- [14] T.E. Williams and M.A. Horowitz, "A zero-overhead self-timed 160-ns 54-b CMOS divider," IEEE J. Solid-State Circuits, vol.26, no.11, pp.1651–1661, Nov. 1991.

(平成 20 年 8 月 25 日受付, 21 年 1 月 15 日再受付)



三宮 秀次 (正員)

2002 高知工科大・工・情報システム卒. 2004 同大大学院修士課程了.2006 高知工 科大学助手.2007 同大学院博士課程単位 取得後退学,現在に至る.自己タイミング 型パイプラインシステムとその開発手法に 関する研究に従事.情報処理学会,IEEE

各会員.



大森 洋一 (正員)

1993 京大・工・情報卒.1998 奈良先端 科学技術大学院大学博士課程了.同年高知 工科大学工学部助手.2004 九州大学助手. 2007 同助教,現在に至る.博士(工学). 高次システム設計及び組込みシステムソフ トウェアに関する研究に従事.情報処理学

会, IEEE 各会員.



酒居 敬一 (正員)

1993 広島大・工卒.1995 同大大学院工 学研究科博士課程前期了.同年広島大学工 学部助手.2003 高知工科大学工学部講師, 現在に至る.博士(工学).計算機アーキ テクチャ,コード最適化に興味をもつ.



#### 岩田 誠 (正員)

1986 阪大・工・電子卒.1991 同大大学 院博士課程単位取得後退学.同年大阪大学 工学部助手,1997 高知工科大学情報シス テム工学科助教授,2002 同教授,2006 同 学科長,現在に至る.2002 より,東北大・ 電気通信研究所 IT21 センター客員助教授,

2006 同客員教授を兼務.2008 カリフォルニア大学アーバイン 校客員研究員.博士(工学).データ駆動パラダイムを核とし た,ソフトウェア環境及び ULSI 向きアーキテクチャの研究に 従事.情報処理学会,IEEE 各会員.