Phase 4: E1 docs + E2 next instructions

This commit is contained in:
Moe Charm (CI)
2025-12-14 01:46:18 +09:00
parent 88717a8737
commit 7f3ff6c7e6
7 changed files with 185 additions and 35 deletions

View File

@ -101,6 +101,13 @@ HAKMEM_ALLOC_GATE_SHAPE=1
```
- **Status**: NEUTRALMixed 10-run: Mean **+0.56%** / Median **-0.5%**)→ default OFF
- **Effect**: `tiny_alloc_gate_fast()` の分岐形を簡素化(`tiny_route_get()` と release logging branch を回避)
- **Phase 4 E1ENV Snapshot Consolidation** ✅ GO (opt-in):
```sh
HAKMEM_ENV_SNAPSHOT=1
```
- **Status**: ✅ GOMixed 10-run: **+3.92% avg / +4.01% median**)→ default OFFopt-in
- **Effect**: `tiny_c7_ultra_enabled_env/tiny_front_v3_enabled/tiny_metadata_cache_enabled` のホット ENV gate を snapshot 1 本に集約
- **Rollback**: `HAKMEM_ENV_SNAPSHOT=0`
- v2 系は触らないC7_SAFE では Pool v2 / Tiny v2 は常時 OFF
- FREE_POLICY/THP を触る実験例(現在の HEAD では必須ではなく、組み合わせによっては微マイナスになる場合もある):
```sh

View File

@ -1,5 +1,15 @@
# Phase 4 E1: ENV Snapshot Consolidation設計メモ
## Status2025-12-14
- ✅ 実装完了commit: `88717a873`
- ✅ Mixed A/B10-run, iter=20M, ws=400:
- Baseline: **43.62M** ops/s
- Optimized: **45.33M** ops/s
- Gain: **+3.92% avg / +4.01% median**
- 判定: **GO**(目標 +2.5% をクリア)
- 運用: `HAKMEM_ENV_SNAPSHOT=1`**opt-indefault OFF** のまま保持(必要ならプリセット昇格)
## 目的
ホットパスで毎回呼ばれている ENV gate小さな関数の呼び出し分岐TLS参照を **1 回の “snapshot load” に集約**し、
@ -54,19 +64,17 @@ MIXED の「shape 最適化の頭打ち」を越える。
## API
```c
// core/box/hakmem_env_snapshot_box.h
typedef struct HakmemEnvSnapshot {
int inited;
int enabled; // ENV: HAKMEM_ENV_SNAPSHOT=0/1default 0
// Hot toggles (effective values)
int tiny_front_v3_enabled; // default 1
int tiny_c7_ultra_enabled; // default 1
int tiny_metadata_cache; // default 0
int tiny_metadata_cache_eff; // tiny_metadata_cache && !learner
bool tiny_c7_ultra_enabled; // ENV: HAKMEM_TINY_C7_ULTRA_ENABLED (default 1)
bool tiny_front_v3_enabled; // ENV: HAKMEM_TINY_FRONT_V3_ENABLED (default 1)
bool tiny_metadata_cache; // ENV: HAKMEM_TINY_METADATA_CACHE (default 0)
bool tiny_metadata_cache_eff; // tiny_metadata_cache && !learner
} HakmemEnvSnapshot;
const HakmemEnvSnapshot* hakmem_env_snapshot_get_fast(void);
void hakmem_env_snapshot_refresh_from_env(void);
bool hakmem_env_snapshot_enabled(void); // ENV: HAKMEM_ENV_SNAPSHOT=0/1 (default 0)
const HakmemEnvSnapshot* hakmem_env_snapshot(void);
void hakmem_env_snapshot_refresh_from_env(void); // bench_profile putenv sync
```
設計ノート:
@ -80,6 +88,16 @@ bench では `bench_setenv_default()` が `putenv()` を使うため、lazy init
- `core/bench_profile.h` の最後で `hakmem_env_snapshot_refresh_from_env()` を必ず呼ぶ
- `wrapper_env_refresh_from_env()` / `tiny_static_route_refresh_from_env()` と同じ “ENV 同期箱” 扱い
## 実装(置換した call-site
- `core/front/malloc_tiny_fast.h`:
- `tiny_c7_ultra_enabled_env()` → snapshotalloc/free の C7 ULTRA gate
- `tiny_front_v3_enabled()` → snapshotfree 側 front_snap
- `core/box/tiny_legacy_fallback_box.h`:
- `tiny_front_v3_enabled()` / `tiny_metadata_cache_enabled()` → snapshot
- `core/box/tiny_metadata_cache_hot_box.h`:
- `tiny_metadata_cache_enabled()` → snapshotlearner interlock を snapshot 側で処理)
## 移行対象(最小)
まずは “毎回評価される” ところを最小パッチで狙う:
@ -114,3 +132,7 @@ bench では `bench_setenv_default()` が `putenv()` を使うため、lazy init
- **Learner interlock**:
- `tiny_metadata_cache_eff` の計算で learner を必ず抑制
## 次Graduate
- 追加で 20-run を回し、問題がなければ `MIXED_TINYV3_C7_SAFE``HAKMEM_ENV_SNAPSHOT=1` を **プリセット昇格**するbench default 注入)。
- rollback は `HAKMEM_ENV_SNAPSHOT=0`(即戻せる)。

View File

@ -1,5 +1,11 @@
# Phase 4 E1: ENV Snapshot Consolidation次の指示書
## Status2025-12-14
- ✅ GOcommit: `88717a873`
- Mixed A/B10-run, iter=20M, ws=400: **+3.92% avg / +4.01% median**
- 現状: opt-indefault OFFのまま保持
## ゴール
MIXED の Hot path にある ENV gate 呼び出しを “snapshot 1 回” に集約し、**+2.5% 以上**を狙う。
@ -96,3 +102,6 @@ E1=1 で perf を取り直し、次を確認:
NEUTRAL/NO-GO の場合:
- default OFF のまま freeze本線は汚さない
## NextPhase 4 E2
- 次の指示書: `docs/analysis/PHASE4_E2_ALLOC_PER_CLASS_FASTPATH_NEXT_INSTRUCTIONS.md`

View File

@ -0,0 +1,46 @@
# Phase 4 E2: Alloc Per-Class Fast Path設計メモ
## 目的
E1 で ENV gate の “TLS/branch 3 本” を潰したあとの次の芯は、
alloc 側の「class ごとの第2ホット」を勝ち箱にすること。
狙い:
- Mixed の alloc ホットで、**C0C3小サイズ側**を “第2ホット” として扱い、
policy/route の汎用分岐を避けて **LEGACY unified cache へ直行**させる。
前提:
- FREE 側は DUALHOT で勝っているC0C3 が大量に出る現実がある)
- ALLOC 側は過去に DUALHOT が NO-GO だったが、Phase 2 の SSOT/分岐再配置で “再評価できる状態” になっている
## 方針Box Theory
- L0: ENV戻せる
- `HAKMEM_TINY_ALLOC_DUALHOT=0/1` を “研究箱” から再評価対象へ
- `HAKMEM_ENV_SNAPSHOT=1` と併用ENV overhead を抑えた状態で判定)
- L1: Per-class Fast Path境界 1 箇所)
- `malloc_tiny_fast_for_class()` の **C0C3 ブロック**でのみ評価するC4C7 を汚さない)
- miss のときは **必ず return** で抜けて、後続の policy/route を二重実行しない(過去の失敗原因を再発させない)
## 成功条件A/B
Mixed 10-runiter=20M, ws=400, 1T:
- Baseline: `HAKMEM_TINY_ALLOC_DUALHOT=0`+ E1 は ON
- Opt: `HAKMEM_TINY_ALLOC_DUALHOT=1`+ E1 は ON
判定:
- GO: mean **+1.0% 以上**
- ±1%: NEUTRALfreeze
- -1% 以下: NO-GOfreeze
## リスク
- C0C3 の割合が小さいワークロードでは効かないNEUTRAL になりやすい)
- 分岐予測/ICache の影響で回帰する可能性NO-GO も許容)
## 次GO の場合)
- `MIXED_TINYV3_C7_SAFE` プリセットへ昇格検討default 注入)
- 併せて perf で `malloc_tiny_fast_for_class` / `tiny_hot_alloc_fast` / `tiny_cold_refill_and_alloc` の変化を確認

View File

@ -0,0 +1,52 @@
# Phase 4 E2: Alloc Per-Class Fast Path次の指示書
## Step 0: 前提E1 を ON にしてから評価)
E2 は “ENV overhead を消した状態” で効果を見たいので、まず E1 を有効化して測る。
推奨:
```sh
HAKMEM_PROFILE=MIXED_TINYV3_C7_SAFE HAKMEM_ENV_SNAPSHOT=1 \
./bench_random_mixed_hakmem 20000000 400 1
```
## Step 1: perf で GO 条件self% ≥ 5%)を満たすか確認
```sh
HAKMEM_PROFILE=MIXED_TINYV3_C7_SAFE HAKMEM_ENV_SNAPSHOT=1 perf record -F 99 -- \
./bench_random_mixed_hakmem 20000000 400 1
perf report --stdio --no-children
```
メモ: `malloc_tiny_fast_for_class` / `tiny_hot_alloc_fast` / `tiny_cold_refill_and_alloc` が見えていれば GO。
## Step 2: A/B既存スイッチの再評価
E2 の最短は “既存の per-class スイッチ” を正しい条件で測ること。
Mixed 10-runiter=20M, ws=400, 1T:
```sh
# Baseline
HAKMEM_PROFILE=MIXED_TINYV3_C7_SAFE HAKMEM_ENV_SNAPSHOT=1 HAKMEM_TINY_ALLOC_DUALHOT=0 \
./bench_random_mixed_hakmem 20000000 400 1
# Optimized
HAKMEM_PROFILE=MIXED_TINYV3_C7_SAFE HAKMEM_ENV_SNAPSHOT=1 HAKMEM_TINY_ALLOC_DUALHOT=1 \
./bench_random_mixed_hakmem 20000000 400 1
```
判定10-run mean:
- GO: **+1.0% 以上**
- ±1%: NEUTRALfreeze
- -1% 以下: NO-GOfreeze
## Step 3: GO の場合の昇格
- `core/bench_profile.h``MIXED_TINYV3_C7_SAFE``bench_setenv_default("HAKMEM_TINY_ALLOC_DUALHOT","1");` を入れるか検討
- `docs/analysis/ENV_PROFILE_PRESETS.md` に結果と rollback を追記
- `CURRENT_TASK.md` を更新
## Step 4: NO-GO/NEUTRAL の場合
- E2 は freezedefault OFF
- 次の候補へ(例: `tiny_region_id_write_header` の hot/cold 化、`tiny_get_max_size` の snapshot 化)