T4 Performance Counters explained
T4が発表されて数ヶ月が経ちましたが、何人かの人々は、監視可能な新しいパイプラインの細部を疑問に思っているかもしれません。 "cpustat -h"では、監視可能な多くのイベントのリストが出力されますが、見ればすぐ分かるものはごく少数です。私はそれらにいくつかの見識を提供しよう思います。これらの"PIC event"のいくつかは、T4のパイプラインの深い知識が必要となります。そのうち説明するつもりですが、当分の間は無視しておきます。
Notes:
- some counters changed from tape-out 1.1 (*only* used in the T4 beta program) to tape-out 1.2 (used in the systems shipping today) The table only lists the tape-out 1.2 counters.
- I marked some counters "no good use known". That means there is no sensible application area (yet?) known. Some counters become useless while the overall design is being developed.
- check back often, I will every once in while edit this page. The use cases for these counters may change over time while we learn.
pic name (cpustat) | Generic Event(PAPI) | Prose Comment |
---|---|---|
Sel_pipe_drain_cycles, Sel_0_[wait|ready], Sel_[1|2] |
Sel_0_wait は、ストランドが選択されるのを待つサイクルをカウントします。いくつかの理由を、詳細にカウントすることができ、以下のとおりです。
|
|
Pick_any, Pick_[0|1|2|3] | 1, 2, 3, 0 または、少なくとも一つの命令または μOP が、pick されているサイクル | |
Instr_FGU_crypto, Instr_ld, Instr_st, SPR_ring_ops, Instr_other |
PAPI_fp_ins, PAPI_ld_ins, PAPI_sr_ins |
ストランドで実行命されたタイプ別の命令数 |
Instr_all | PAPI_tot_ins | ストランドで実行された命令の総数 |
Sw_count_intr | vcpu 上の S/W 命令数(sethi %hi(fc000),%g0 (それが何であれ)) | |
Atomics | アトミック操作(LDSTUB[load and store unsigned byte], CASA/CASXA, SWAP) の数 | |
SW_prefetch | PREFETCH または PREFETCHA 命令の数 | |
Block_ld_st | vcpu 上の Block load または store | |
IC_miss, IC_miss_L2_L3_hit, IC_miss_local_remote_remL3_hit |
PAPI_l1_icm | L2-cache または L3-cache のどちらかでのミスで廃棄された、I-cache プリフェッチ。このバリアントは、原因の命令をコミットするかどうかに関係なく、ミスをカウントします。 |
IC_miss_nospec, IC_miss_[L2_L3|local|remote]_hit_nospec |
どこで発生したかで区別した様々な I-cache(Instruction Cache: 命令キャッシュ)ミス。スレッドごとの全てのカウントで、唯一の主要なイベント: T4 は、コア上の特定の命令の最初に出現した I-cache ミスだけをカウントします。あるストランドが I-cache でミスする場合、このミスはカウントされますが、一つ目のミスを解決している間に、同じコア上の二つ目のストランドがミスすると、このキャッシュミスはカウントされません。この I-cache ミスの特色は、実際のコミット命令で起こされるミスだけをカウントします("_nospec" に注目)。 | |
DC_miss DC_miss_[L2_L3|local|remote_L3]_hit |
PAPI_l1_dcm | 全体的または、どこでヒットしたかの詳細な D-cache ミス。_nospec の説明は、IC_miss を参照。 |
DC_miss_nospec, DC_miss_[L2_L3|local|remote_L3]\ _hit_nospec |
全体的または、どこでヒットしたかの詳細な D-cache ミス。_nospec の説明は、IC_miss を参照。 | |
BTC_miss | PAPI_btac_m | ブランチ・ターゲット・キャッシュのミス。BTB(Branch Target Buffer) とも呼びます。 |
ITLB_miss | PAPI_tlb_im | ITLB(Instruction Translation Lookaside Buffer) ミス (同期してカウントされます) |
ITLB_miss_asynch | 同上(非同期) | |
[I|D]TLB_fill_[8KB|64KB|4MB|256MB|2GB|trap] | 対応するページサイズの変換により、ITLB または DTLB を埋める Hardware Tablewalk (HWTW) イベント。 HWTW が、対応する TLB を埋めることができなかった場合、"_trap" イベントが発生します。 |
|
IC_mtag_miss, IC_mtag_miss_\ [ptag_hit|ptag_miss|\ ptag_hit_way_mismatch] |
I-cache マイクロタグミス。掘り下げるためのいくつかのオプションがあります。 | |
Fetch_0, Fetch_0_all | Fetch_0 は、特定のストランドのために、何もフェッチされなかったサイクル数をカウントし、Fetch_0_all は、コア上のすべてのストランドに対して、何もフェッチされなかったサイクル数をカウントします。 | |
Instr_buffer_full | フェッチが妨げられていることにより、ストランド用の命令バッファがいっぱいになったサイクル。 | |
BTC_targ_incorrect | BTC からの誤った予測分岐ターゲットの発生をカウントします。 | |
[PQ|ROB|LB|ROB_LB|SB|\ ROB_SB|LB_SB|RB_LB_SB|\ DTLB_miss]\ _tag_wait |
これらのカウンタは、パイプラインの動作を監視します。したがって、ストランド固有ではありません:
|
|
[I|D]TLB_HWTW_\ [L2_hit|L3_hit|L3_miss|all] |
DTLB または ITLB ミスのどちらかが原因で発生するHWTWへのアクセスのカウント。どこでヒットしたか、さらに詳細に調査できます。 | |
DTLB_miss_asynch | 非同期のすべての DTLB ミスのカウント。同期的にそれらをカウントする方法はありません。 | |
DC_pref_drop_DC_hit, SW_pref_drop_[DC_hit|buffer_full] | D-cache ヒットが原因でドロップされた、L1-D-cache H/W プリフェッチ。コアごとにカウント。もう一方は、ストランド当たりの S/W プリフェッチのカウント。 | |
[Full|Partial]_RAW_hit_st_[buf|q] | まだ格納されていないデータを取得したい load イベントをカウントします。例) パイプラインの内に残っている。データはまだストアバッファまたはストアキューのいずれかの中である可能性があります。データの load が、ストアバッファとストアキューに一致する場合、もちろん若いので、バッファー内のデータが優先されます。 | |
[IC|DC]_evict_invalid, [IC|DC|L1]_snoop_invalid, [IC|DC|L1]_invalid_all |
キャッシュ内に必要なデータを保存し、不要なデータを追い出すことを、キャッシュエビクションと呼びます。 無効になったキャッシュエビクションのコアごとのカウンターです。 |
|
St_q_tag_wait | パイプラインがストアキュータグを待っているサイクル数。もちろんコアごとのカウント | |
Data_pref_[drop_L2|drop_L3|\ hit_L2|hit_L3|\ hit_local|hit_remote] |
なぜドロップされたか、どこでヒットしたかの、さらに詳細なデータプリフェッチ | |
St_hit_[L2|L3], St_L2_[local|remote]_C2C, St_local, St_remote |
どこでヒットしたか、またはどこで L2-cache 間転送を引き起こしたかを区別されたストアイベント。例えば、同じダイ上の別 L2-cache から、あるいは異なるダイからの転送のどちらか。 | |
L2_[clean|dirty]_evict | コアごとの dirty または clean な L2-cache エビクション。 L2_clean_evict は、命令フェッチのボトルネックを示すことができます: それらは変化しないため、命令は clean と考えることができます。 clean なエビクションの発生が多い場合は、十分に速くフェッチされていない L2-cache から、命令をエビクションしている可能性があります。 |
|
L2_fill_buf_full, L2_wb_buf_full, L2_miss_buf_full |
コアあたりの L2-cache バッファイベント。これらのサイクル数は、提供される知られているよい使用がない。 | |
L2_pipe_stall | コアあたりの、L2-cache が原因でパイプラインがストールしているサイクル。知られているよい使用がない。 | |
Branches | PAPI_br_cn | ブランチのカウント(Tcc, DONE, RETRY, SIT はブランチとしてカウントされない) |
Br_taken | PAPI_br_ins | ブランチされたカウント(Tcc, DONE, RETRY, SIT はブランチとしてカウントされない) |
Br_mispred, Br_dir_mispred, Br_trg_mispred, Br_trg_mispred_\ [far_tbl|indir_tbl|ret_stk] |
PAPI_br_msp | さまざまな分岐予測ミスイベントのカウンタ |
Cycles_user | アドレス空間を制御する hpriv, nouser, sys 属性設定のサイクルカウント | |
Commit_[0|1|2], Commit_0_all, Commit_1_or_2 |
ストランドでコミットした、0, 1, または 2 回の µOP の数。Commit_0_all は、コア全体での µOP されていないコミットのカウント。 |
0 件のコメント:
コメントを投稿