results/h2_no_residual_s42.log


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

device=cuda:0, depth=4, d_hidden=256, epochs=100, seed=42
eval buffer: torch.Size([1024, 3072])

=== BP training ===
  [BP] Ep 0: ||h||_med=[8.718070030212402, 4.280222415924072, 4.422238349914551, 4.604765892028809, 4.6893696784973145] ||g||_med=[0.0010339331347495317, 0.0009070215164683759, 0.0008196940761990845, 0.000755702203605324, 0.0006969328387640417] acc=0.1123
  [BP] Ep 1: ||h_L||=2.659e+01 ||g_2||=8.531e-05 acc=0.0576
  [BP] Ep 2: ||h_L||=3.938e+01 ||g_2||=6.031e-05 acc=0.0576
  [BP] Ep 3: ||h_L||=4.631e+01 ||g_2||=5.228e-05 acc=0.0664
  [BP] Ep 4: ||h_L||=5.721e+01 ||g_2||=4.597e-05 acc=0.0625
  [BP] Ep 5: ||h_L||=6.593e+01 ||g_2||=4.147e-05 acc=0.0664
  [BP] Ep 6: ||h_L||=7.175e+01 ||g_2||=3.982e-05 acc=0.0762
  [BP] Ep 7: ||h_L||=8.016e+01 ||g_2||=3.737e-05 acc=0.0820
  [BP] Ep 8: ||h_L||=8.979e+01 ||g_2||=3.617e-05 acc=0.0781
  [BP] Ep 9: ||h_L||=1.020e+02 ||g_2||=3.456e-05 acc=0.0752
  [BP] Ep 10: ||h_L||=1.159e+02 ||g_2||=3.380e-05 acc=0.0752
  [BP] Ep 11: ||h_L||=1.185e+02 ||g_2||=3.288e-05 acc=0.0840