#!/bin/bash
# Wait for SRM-runner to finish, then run H: Engelken L2 on converged HRM step_26040.
# Tests whether Engelken hurts in refinement regime (CF hinge gave +9.8% on this ckpt).
set -e
cd /home/yurenh2/rrm/research/flossing
source /home/yurenh2/miniconda3/etc/profile.d/conda.sh
conda activate rrm
export CUDA_VISIBLE_DEVICES=2

SRM_RUNNER_PID=$1
echo "[$(date '+%H:%M:%S')] H-runner waiting for SRM-runner PID $SRM_RUNNER_PID..." >> step4_runner.log
while kill -0 "$SRM_RUNNER_PID" 2>/dev/null; do
  sleep 30
done
echo "[$(date '+%H:%M:%S')] SRM done. Starting Phase H: Engelken L2 (α=10, k=4) on converged step_26040" >> step4_runner.log

CKPT_ROOT="/home/yurenh2/rrm/hrm/checkpoints/Sudoku-extreme-1k-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV1 righteous-python"

python step3_train_with_rf.py \
  --ckpt-root "$CKPT_ROOT" \
  --ckpt-name step_26040 \
  --n-steps 500 --batch-size 8 \
  --alpha-rf 10.0 --rf-mode engelken_l2 \
  --k-lyap 4 --lyap-act-steps 4 \
  --eval-every 100 --eval-n 512 --eval-batch-size 32 \
  --out step3_H_engelken_l2_26040.json \
  > step3_H.log 2>&1

echo "[$(date '+%H:%M:%S')] Phase H complete (Engelken on converged HRM)" >> step4_runner.log