research/flossing/analysis_2x2/results_trm_official_gbs768_step58590_n512.json


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105

{
  "npz": "../official_gbs768_spectrum/trm_gbs768_base_step58590_n512_k8_seed20260602.npz",
  "n": 512,
  "exact_acc": 0.875,
  "late_drift_def": "mean(drift_zH[:, -4:])",
  "otsu_tau_log10": 1.364234039179148,
  "frac_converged": 0.84765625,
  "cells": {
    "A_conv_correct": {
      "n": 434,
      "lam1_median": 0.011052772868424654,
      "lam1_mean": 0.015589851711679268,
      "lam1_iqr": [
        0.008054324658587575,
        0.017474188469350338
      ],
      "lam8_median": 0.0021472229855135083,
      "spectrum_median": [
        0.011052772868424654,
        0.008679452817887068,
        0.007291494170203805,
        0.005999391432851553,
        0.004774029366672039,
        0.0037459908053278923,
        0.0029579862020909786,
        0.0021472229855135083
      ],
      "token_acc_median": 1.0,
      "halted_at_median": 2.0
    },
    "B_conv_wrong": {
      "n": 0
    },
    "C_nonconv_correct": {
      "n": 14,
      "lam1_median": 0.08274861052632332,
      "lam1_mean": 0.0802882562524506,
      "lam1_iqr": [
        0.07004822231829166,
        0.09586159884929657
      ],
      "lam8_median": 0.00618100818246603,
      "spectrum_median": [
        0.08274861052632332,
        0.05459940806031227,
        0.039645833894610405,
        0.026364507153630257,
        0.020821912214159966,
        0.015413322485983372,
        0.010960425715893507,
        0.00618100818246603
      ],
      "token_acc_median": 1.0,
      "halted_at_median": 14.0
    },
    "D_nonconv_wrong": {
      "n": 64,
      "lam1_median": 0.10339764878153801,
      "lam1_mean": 0.10259491263423115,
      "lam1_iqr": [
        0.09241705574095249,
        0.1118917465209961
      ],
      "lam8_median": 0.02135413885116577,
      "spectrum_median": [
        0.10339764878153801,
        0.07536708191037178,
        0.057968027889728546,
        0.0463954322040081,
        0.03947761468589306,
        0.03304685465991497,
        0.026251215487718582,
        0.02135413885116577
      ],
      "token_acc_median": 0.6296296119689941,
      "halted_at_median": 0.0
    }
  },
  "mixture": {
    "wrong_that_converged": 0.0,
    "correct_that_nonconverged": 0.03125
  },
  "contrasts": {
    "dlam1_correct_minus_wrong_overall": -0.09217484341934323,
    "dlam1_within_converged": NaN,
    "dlam1_within_nonconverged": -0.02064903825521469,
    "dlam1_wrong_conv_minus_wrong_nonconv": NaN
  },
  "auc": {
    "neg_lam1_predicts_correct_overall": 0.99267578125,
    "neg_lam1_predicts_correct_within_conv": NaN,
    "neg_lam1_predicts_correct_within_nonconv": 0.7667410714285714,
    "neg_logdrift_predicts_correct": 0.9767020089285714,
    "neg_lam1_predicts_converged": 0.9906947890818859
  },
  "aux": {
    "late_drift_zL_corr_with_zH_log": 0.983883308834529,
    "q_halt_final_median_by_cell": {
      "A_conv_correct": 7.78125,
      "B_conv_wrong": NaN,
      "C_nonconv_correct": 7.71875,
      "D_nonconv_wrong": -11.125
    }
  }
}