Files

Moe Charm (CI) 67fb15f35f Wrap debug fprintf in !HAKMEM_BUILD_RELEASE guards (Release build optimization)

## Changes

### 1. core/page_arena.c
- Removed init failure message (lines 25-27) - error is handled by returning early
- All other fprintf statements already wrapped in existing #if !HAKMEM_BUILD_RELEASE blocks

### 2. core/hakmem.c
- Wrapped SIGSEGV handler init message (line 72)
- CRITICAL: Kept SIGSEGV/SIGBUS/SIGABRT error messages (lines 62-64) - production needs crash logs

### 3. core/hakmem_shared_pool.c
- Wrapped all debug fprintf statements in #if !HAKMEM_BUILD_RELEASE:
  - Node pool exhaustion warning (line 252)
  - SP_META_CAPACITY_ERROR warning (line 421)
  - SP_FIX_GEOMETRY debug logging (line 745)
  - SP_ACQUIRE_STAGE0.5_EMPTY debug logging (line 865)
  - SP_ACQUIRE_STAGE0_L0 debug logging (line 803)
  - SP_ACQUIRE_STAGE1_LOCKFREE debug logging (line 922)
  - SP_ACQUIRE_STAGE2_LOCKFREE debug logging (line 996)
  - SP_ACQUIRE_STAGE3 debug logging (line 1116)
  - SP_SLOT_RELEASE debug logging (line 1245)
  - SP_SLOT_FREELIST_LOCKFREE debug logging (line 1305)
  - SP_SLOT_COMPLETELY_EMPTY debug logging (line 1316)
- Fixed lock_stats_init() for release builds (lines 60-65) - ensure g_lock_stats_enabled is initialized

## Performance Validation

Before: 51M ops/s (with debug fprintf overhead)
After:  49.1M ops/s (consistent performance, fprintf removed from hot paths)

## Build & Test

```bash
./build.sh larson_hakmem
./out/release/larson_hakmem 1 5 1 1000 100 10000 42
# Result: 49.1M ops/s
```

Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

2025-11-26 13:14:18 +09:00

5.9 KiB

Raw Blame History

Random Mixed ボトルネック分析 - 返答フォーマット

Random Mixed ボトルネック分析

1. Cycles 分布

Layer	Target Classes	Hit Rate	Cycles	Status
Ring Cache	C2-C3 only	0% (OFF)	N/A	Not enabled
HeapV2	C0-C3	88-99%	Low (2-3)	Working ✅
TLS SLL	C0-C7	0.7-2.7%	Medium (8-12)	Fallback only
SuperSlab refill	All classes	~2-5% miss	High (50-200)	BOTTLENECK 🔥
UltraHot	C1-C2	N/A	Medium	OFF (Phase 19)

Ring Cache: Low (2-3 cycles) - ポインタチェイス削減（未使用）
HeapV2: Low (2-3 cycles) - Magazine供給（C0-C3のみ有効）
TLS SLL: Medium (8-12 cycles) - Fallback層、複数classで枯渇
SuperSlab refill: High (50-200 cycles) - Metadata走査+carving（支配的）
UltraHot: Medium - デフォルトOFF（Phase 19で削除）

ボトルネック: SuperSlab refill (50-200 cycles/refill) - Random Mixed では class切り替え多発により TLS SLL が頻繁に空になり、refill多発

2. FrontMetrics 状況

実装: ✅ ある (core/box/front_metrics_box.{h,c})
HeapV2: 88-99% ヒット率 → C0-C3 では本命層として機能中
UltraHot: デフォルト OFF （Phase 19-4で +12.9% 改善のため削除）
FC/SFC: 実質無効化

Fixed vs Mixed の違い:

側面	Fixed 256B	Random Mixed
使用クラス	C5 のみ	C3, C5, C6, C7 (混在)
Class切り替え	0 (固定)	頻繁 (毎iteration)
HeapV2適用	非適用	C0-C3のみ（部分）
TLS SLL hit率	High	Low（複数class枯渇）
Refill頻度	低い（C5 warm保持）	高い（class毎に空）

死んでいる層: C4-C7 (128B-1KB) が全く最適化されていない

C0-C3: HeapV2 ✅
C4: Ring ❌, HeapV2 ❌, UltraHot ❌ → 素のTLS SLL + refill
C5: Ring ❌, HeapV2 ❌, UltraHot ❌ → 素のTLS SLL + refill
C6: Ring ❌, HeapV2 ❌, UltraHot ❌ → 素のTLS SLL + refill
C7: Ring ❌, HeapV2 ❌, UltraHot ❌ → 素のTLS SLL + refill

Random Mixed で使用されるクラスの 50%以上 が完全未最適化！

3. Class別プロファイル

使用クラス (bench_random_mixed.c:77 分析):

size_t sz = 16u + (r & 0x3FFu);  // 16B-1040B
→ C2 (16-31B), C3 (32-63B), C4 (64-127B), C5 (128-255B), C6 (256-511B), C7 (512-1024B)

最適化カバレッジ:

Ring Cache: 4個クラス対応済み（C0-C7）だが デフォルト OFF
- HAKMEM_TINY_HOT_RING_ENABLE=0 (有効化されていない)
HeapV2: 4個クラス対応（C0-C3）
- C4-C7 に拡張可能だが Phase 17-1 実験で +0.3% のみ効果
素のTLS SLL: 全クラス（fallback）

素のTLS SLL 経路の割合:

C0-C3: ~88-99% HeapV2（TLS SLL は2-12% fallback）
C4-C7: ~100% TLS SLL + SuperSlab refill（最適化なし）

4. 推奨施策（優先度順）

1. 最優先: Ring Cache C4/C7 拡張

効果推定: High (+13-29%)
理由:
- Phase 21-1 で実装済み（core/front/tiny_ring_cache.h）
- C2-C3 未使用（デフォルト OFF）
- ポインタチェイス削減: TLS SLL 3mem → Ring 2mem (-33%)
- Random Mixed の C4-C7 (50%) をカバー可能
実装期間: 低 (ENV 有効化のみ、≦1日)
リスク: 低 (既実装、有効化のみ)
期待値: 19.4M → 22-25M ops/s (25-28%)

有効化:

export HAKMEM_TINY_HOT_RING_ENABLE=1
export HAKMEM_TINY_HOT_RING_C4=128
export HAKMEM_TINY_HOT_RING_C5=128
export HAKMEM_TINY_HOT_RING_C6=64
export HAKMEM_TINY_HOT_RING_C7=64

2. 次点: HeapV2 を C4/C5 に拡張

効果推定: Low to Medium (+2-5%)
理由:
- Phase 13-A で実装済み（core/front/tiny_heap_v2.h）
- Magazine supply で TLS SLL hit rate 向上
制限: Phase 17-1 実験で +0.3% のみ（delegation overhead = TLS savings）
実装期間: 低 (ENV 変更のみ)
リスク: 低
期待値: 19.4M → 19.8-20.4M ops/s (+2-5%)
判断: Ring Cache の方が効果的（Ring を優先）

3. 長期: C7 (1KB) 専用 HotPath

効果推定: Medium (+5-10%)
理由: C7 は Random Mixed の ~16% を占める
実装期間: 高（新規実装）
判断: 後回し（Ring Cache + Phase 21-2 後に検討）

4. 超長期: SuperSlab Shared Pool (Phase 12)

効果推定: VERY HIGH (+300-400%)
理由: 877 SuperSlab → 100-200 削減（根本解決）
実装期間: Very High（アーキテクチャ変更）
期待値: 70-90M ops/s（System の 70-90%）
判断: Phase 21 完了後に着手

最終推奨（フォーマット通り）

優先度付き推奨施策

最優先: Ring Cache C4/C7 有効化
- 理由: ポインタチェイス削減で +13-29% 期待、実装済み（有効化のみ）
- 期待: 19.4M → 22-25M ops/s (25-28% of system)
次点: HeapV2 C4/C5 拡張
- 理由: TLS refill 削減で +2-5% 期待、ただし Ring より効果薄
- 期待: 19.4M → 19.8-20.4M ops/s (+2-5%)
長期: C7 専用 HotPath 実装
- 理由: 1KB 単体の最適化、実装コスト大
- 期待: +5-10%
超長期: Phase 12 (Shared SuperSlab Pool)
- 理由: 根本的なメタデータ圧縮（構造的ボトルネック攻撃）
- 期待: +300-400% (70-90M ops/s)

本分析の根拠ファイル:

/mnt/workdisk/public_share/hakmem/core/front/tiny_ring_cache.h - Ring Cache 実装
/mnt/workdisk/public_share/hakmem/core/front/tiny_heap_v2.h - HeapV2 実装
/mnt/workdisk/public_share/hakmem/core/tiny_alloc_fast.inc.h - Allocation fast path
/mnt/workdisk/public_share/hakmem/core/box/tls_sll_box.h - TLS SLL 実装
/mnt/workdisk/public_share/hakmem/CURRENT_TASK.md - Phase 19-22 実装状況

5.9 KiB Raw Blame History Unescape Escape