Major Features: - Debug counter infrastructure for Refill Stage tracking - Free Pipeline counters (ss_local, ss_remote, tls_sll) - Diagnostic counters for early return analysis - Unified larson.sh benchmark runner with profiles - Phase 6-3 regression analysis documentation Bug Fixes: - Fix SuperSlab disabled by default (HAKMEM_TINY_USE_SUPERSLAB) - Fix profile variable naming consistency - Add .gitignore patterns for large files Performance: - Phase 6-3: 4.79 M ops/s (has OOM risk) - With SuperSlab: 3.13 M ops/s (+19% improvement) This is a clean repository without large log files. 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
1.7 KiB
1.7 KiB
Phase 6.19 Plan (2025-10-23)
目的: Large 帯 (64KB–1MB, 4T) の l25_get/hak_alloc のホットコストを半減し、mimalloc に接近。
現状要約(10s, 4T, timing ON)
- Mid: hakmem ≈ 9.9M ops/s, ロック/シスコール支配ではない
- Large: hakmem ≈ 0.10M ops/s → l25_get 39–65%, hak_alloc 20–38%, syscalls ≈ 3–8%
- Big: BGバッチ動作OK、無効freeログは既定OFFが望ましい
問題点(根本)
- データプレーンと制御プレーンの未分離: 中央でブロック単位を扱い過ぎ、ヘッダ書込みが残存
- シャード偏り: site→shard の偏りが try→再探査を誘発
- 順序固定の不足: TLSミス時の ActiveRun/Remote/Central の順が最適化されていない
P0: ホットパス最短化
- L2.5: 中央は run 専用(ブロックfree-listを廃止/非推奨化)
- L2.5: bump-run + ActiveRun を既定化(TLS直詰め、ブロック連結なし)
- L2.5: Remote drain 優先(nonempty O(1) 選択 + trylock ≤ 2–3)
- L2.5: シャードハッシュ(splitmix64)既定ON
- ログ抑制:
HAKMEM_INVALID_FREE_LOG=0既定
P1: 書込み削減/ラン長最適化
- L2.5: ヘッダライト/ヘッダレス(ページ記述子)に段階移行
- ラン長 A/B(64/32/16/8 …)で mmap 回数削減
- RING_CAP / TLS_LO_MAX の再探索(4Tでの枯渇・吐き戻し最小化)
計測手順(10秒, timing)
- Large 4T:
HAKMEM_TIMING=1 HAKMEM_WRAP_L25=1 HAKMEM_TRYLOCK_PROBES=8 HAKMEM_TLS_LO_MAX=512 - A/B:
HAKMEM_L25_PREF=remote|run,HAKMEM_L25_RUN_BLOCKS=N,HAKMEM_SHARD_MIX=0/1
期待効果
- l25_get の avg cycles を 30–50% 減
- mmap の発生密度低下(ラン長倍化)