hakmem/docs/analysis/PHASE2_STRUCTURAL_CHANGES_NEXT_INSTRUCTIONS.md

# Phase 2: 構造修正 完了レポート（2025-12-13）

## 概要

Phase 2 では **wrapper 層とアロケーション経路のルーティング形** に焦点を当て、3つのサブフェーズ（B1, B3, B4）を実装。最終的に **B3 + B4 の組み合わせで +4.4% の改善** を達成。

## 実装内容

### B1: Header Tax 削減 v2 ❌ NO-GO

**狙い**: Header write の条件分岐を削減（HEADER_MODE=LIGHT）

**結果**:
- Mixed (10-run): 48.89M → 47.65M ops/s (**-2.54%**, regression)
- 理由: 条件チェックオーバーヘッドが memory store 削減効果を上回る
- 決定: **FREEZE** (research box, ENV opt-in)

### B3: Routing 分岐形最適化 ✅ ADOPT

**狙い**: malloc_tiny_fast() 内の rare route（V7, MID, ULTRA）を noinline,cold へ

**実装**:
- core/front/malloc_tiny_fast.h:252-267 で HAKMEM_TINY_ALLOC_ROUTE_SHAPE dispatch
- Hot path: LIKELY on LEGACY （C0-C7 の大多数）
- Cold path: V7/MID/ULTRA 分岐を cold 領域へ

**結果**:
- Mixed (10-run): 48.41M → 49.80M ops/s (**+2.89%**, win)
- C6-heavy (5-run): 8.97M → 9.79M ops/s (**+9.13%**, strong)
- 決定: **ADOPT as default** in MIXED_TINYV3_C7_SAFE

### B4: Wrapper Layer Hot/Cold Split ✅ ADOPT

**狙い**: wrapper 入口の "稀なチェック"（LD mode、jemalloc、force_libc、診断）を noinline,cold へ

**実装**:
- malloc_cold() (noinline,cold): LD mode、jemalloc、force_libc、BenchFast、init wait 処理
- malloc() hot/cold dispatch: HAKMEM_WRAP_SHAPE=1 ENV gate
- free_cold() (noinline,cold): pointer 分類、ownership check、header validation、全フォールバック
- free() hot/cold dispatch: BenchFast → Tiny fast → free_cold() 委譲

**結果**:
- Mixed (10-run): 34,750,578 → 35,262,596 ops/s (**+1.47%**, average)
- 決定: **ADOPT as default** (HAKMEM_WRAP_SHAPE=1)

## 累積効果

```
Phase 2 Combined (B3 + B4):
  B3 routing shape:     +2.89%
  B4 wrapper shape:     +1.47%
  ─────────────────────────
  Estimated total:      ~+4.4%
```

## 重要な同期機構

**bench_profile での ENV 設定の反映**:
```
core/bench_profile.h:9      → wrapper_env_box.h インクルード
core/box/wrapper_env_box.c:49-64 → wrapper_env_refresh_from_env() 実装
```

bench_profile() 後に wrapper_env_refresh_from_env() を呼び出すことで、
putenv() が wrapper 側の ENV キャッシュに反映される。

## 次フェーズ: Phase 3 計画

目標: Cache Locality 最適化 (+12-22%)

**C3（優先度: 最高）**: Static Routing
- perf top で hot spot を特定
- malloc_tiny_fast() の policy_snapshot を bypass
- 期待: +5-8%

**C1/C2**: TLS prefetch + metadata cache optimization
- 期待: +2-4% + 5-10%

---

次の担当者へ: C3 から着手推奨。
-												Phase 2 B4: Documentation & Instruction Creation (Phase 2→3 Transition)

Documentation Created:
- docs/analysis/PHASE2_STRUCTURAL_CHANGES_NEXT_INSTRUCTIONS.md: Phase 2 完了レポート (B3+B4累積 +4.4%)
- docs/analysis/PHASE3_CACHE_LOCALITY_NEXT_INSTRUCTIONS.md: Phase 3 開始指示（C3 Static Routing優先）

Verification Completed:
- ✅ HAKMEM_WRAP_SHAPE=1 プリセット昇格（core/bench_profile.h:67）
- ✅ wrapper_env_refresh_from_env() 実装済み（core/box/wrapper_env_box.c:49-64）
- ✅ malloc_cold() lock_depth 対称性確認（全 return 経路で g_hakmem_lock_depth--）
- ✅ A/B テスト結果: Mixed +1.47% (≥+1.0% GO threshold)

Summary:
  B3 routing shape:  +2.89%
  B4 wrapper shape:  +1.47%
  ─────────────────
  Estimated total:   ~+4.4%

Next Phase: Phase 3 (Cache Locality, +12-22%)
- Priority: C3 (Static Routing) - bypass policy_snapshot, +5-8% expected
- Profile: perf top で malloc/policy_snapshot hot spot を特定推奨

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>

											
										
										
											2025-12-13 17:32:34 +09:00
+								# Phase 2: 構造修正 完了レポート（2025-12-13）
 								## 概要
 								Phase 2 では **wrapper 層とアロケーション経路のルーティング形** に焦点を当て、3つのサブフェーズ（B1, B3, B4）を実装。最終的に **B3 + B4 の組み合わせで +4.4% の改善** を達成。
 								## 実装内容
 								### B1: Header Tax 削減 v2 ❌ NO-GO
 								**狙い**: Header write の条件分岐を削減（HEADER_MODE=LIGHT）
 								**結果**:
 								- Mixed (10-run): 48.89M → 47.65M ops/s (**-2.54%**, regression)
 								- 理由: 条件チェックオーバーヘッドが memory store 削減効果を上回る
 								- 決定: **FREEZE** (research box, ENV opt-in)
 								### B3: Routing 分岐形最適化 ✅ ADOPT
 								**狙い**: malloc_tiny_fast() 内の rare route（V7, MID, ULTRA）を noinline,cold へ
 								**実装**:
 								- core/front/malloc_tiny_fast.h:252-267 で HAKMEM_TINY_ALLOC_ROUTE_SHAPE dispatch
 								- Hot path: LIKELY on LEGACY （C0-C7 の大多数）
 								- Cold path: V7/MID/ULTRA 分岐を cold 領域へ
 								**結果**:
 								- Mixed (10-run): 48.41M → 49.80M ops/s (**+2.89%**, win)
 								- C6-heavy (5-run): 8.97M → 9.79M ops/s (**+9.13%**, strong)
 								- 決定: **ADOPT as default** in MIXED_TINYV3_C7_SAFE
 								### B4: Wrapper Layer Hot/Cold Split ✅ ADOPT
 								**狙い**: wrapper 入口の "稀なチェック"（LD mode、jemalloc、force_libc、診断）を noinline,cold へ
 								**実装**:
 								- malloc_cold() (noinline,cold): LD mode、jemalloc、force_libc、BenchFast、init wait 処理
 								- malloc() hot/cold dispatch: HAKMEM_WRAP_SHAPE=1 ENV gate
 								- free_cold() (noinline,cold): pointer 分類、ownership check、header validation、全フォールバック
 								- free() hot/cold dispatch: BenchFast → Tiny fast → free_cold() 委譲
 								**結果**:
 								- Mixed (10-run): 34,750,578 → 35,262,596 ops/s (**+1.47%**, average)
 								- 決定: **ADOPT as default** (HAKMEM_WRAP_SHAPE=1)
 								## 累積効果
 								```
 								Phase 2 Combined (B3 + B4):
 								  B3 routing shape:     +2.89%
 								  B4 wrapper shape:     +1.47%
 								  ─────────────────────────
 								  Estimated total:      ~+4.4%
 								```
 								## 重要な同期機構
 								**bench_profile での ENV 設定の反映**:
 								```
 								core/bench_profile.h:9      → wrapper_env_box.h インクルード
 								core/box/wrapper_env_box.c:49-64 → wrapper_env_refresh_from_env() 実装
 								```
 								bench_profile() 後に wrapper_env_refresh_from_env() を呼び出すことで、
 								putenv() が wrapper 側の ENV キャッシュに反映される。
 								## 次フェーズ: Phase 3 計画
 								目標: Cache Locality 最適化 (+12-22%)
 								**C3（優先度: 最高）**: Static Routing
 								- perf top で hot spot を特定
 								- malloc_tiny_fast() の policy_snapshot を bypass
 								- 期待: +5-8%
 								**C1/C2**: TLS prefetch + metadata cache optimization
 								- 期待: +2-4% + 5-10%
 								---
 								次の担当者へ: C3 から着手推奨。