comprehensive_evaluation_plan.md


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166

# 🎯 纯偏见减少训练：Benchmark测试与数据完善计划

## 📊 Phase 1: 核心偏见评估

### 1.1 对比评估
```bash
# 训练前后偏见对比
python create_bias_benchmark.py  # 我们需要创建
python run_bias_evaluation.py \
    --original_model "Qwen/Qwen2.5-Math-1.5B-Instruct" \
    --debiased_model "checkpoints/Qwen2.5-Math-1.5B-Instruct/colab_pure_debiasing/final" \
    --output_dir "results/bias_comparison"
```

**目标指标:**
- 熵差距减少: ✅ 已实现95.3%改善
- 生成质量保持: 待验证
- 推理能力保持: 待验证

## 📚 Phase 2: 真实数据集训练

### 2.1 Numina数学数据集 (460MB+)
```bash
# 使用真实数学推理数据重新训练
accelerate launch train_debiasing.py \
    --model_path "Qwen/Qwen2.5-Math-1.5B-Instruct" \
    --train_data "dataset/numina/numina_00.parquet" \
    --run_name "pure_debiasing_numina" \
    --target_gap 0.01 \
    --max_steps 50 \
    --micro_batch_size 2 \
    --effective_batch 8
```

### 2.2 数据预处理改进
```bash
# 增强GEE处理器支持真实数据
python enhance_gee_processor.py  # 需要创建
```

## 🧪 Phase 3: 多维Benchmark测试

### 3.1 代码生成能力
```bash
# HumanEval测试
python code_eval/OpenCodeEval/main.py \
    --model_path checkpoints/.../final \
    --benchmark HumanEval \
    --output_dir results/humaneval

# MBPP测试
python code_eval/OpenCodeEval/main.py \
    --model_path checkpoints/.../final \
    --benchmark mbpp \
    --output_dir results/mbpp
```

### 3.2 数学推理能力
```bash
# GSM8K测试
python Qwen2.5-Eval/evaluation/math_eval.py \
    --model_path checkpoints/.../final \
    --data_path Qwen2.5-Eval/evaluation/data/gsm8k/test.jsonl

# MATH测试  
python Qwen2.5-Eval/evaluation/math_eval.py \
    --model_path checkpoints/.../final \
    --data_path Qwen2.5-Eval/evaluation/data/math/test.jsonl
```

### 3.3 综合能力测试
```bash
# BigCodeBench
python code_eval/OpenCodeEval/main.py \
    --model_path checkpoints/.../final \
    --benchmark BigCodeBench

# LiveCodeBench (最新)
python code_eval/OpenCodeEval/main.py \
    --model_path checkpoints/.../final \
    --benchmark LiveCodeBench
```

## 📈 Phase 4: 评估分析框架

### 4.1 性能保持度分析
- **代码生成**: pass@1, pass@10
- **数学推理**: 准确率, 推理步骤质量  
- **偏见减少**: 熵差距, 响应多样性

### 4.2 详细对比报告
```
原始模型 vs 纯Debiasing模型:
┌─────────────────┬──────────┬──────────┬────────────┐
│     指标        │  原始    │ Debiasing│   变化     │
├─────────────────┼──────────┼──────────┼────────────┤
│ 熵差距          │  33.2%   │   1.6%   │ -95.3% ✅  │
│ HumanEval pass@1│    ?     │    ?     │     ?      │
│ GSM8K 准确率    │    ?     │    ?     │     ?      │
│ MATH 准确率     │    ?     │    ?     │     ?      │
│ 生成流畅度      │    ?     │    ?     │     ?      │
└─────────────────┴──────────┴──────────┴────────────┘
```

## 🔄 Phase 5: 数据来源扩展

### 5.1 现有数据资产
- ✅ **Numina**: 460MB+ 数学推理数据  
- ✅ **1shot_rlvr**: 强化学习训练数据
- ✅ **合成数据**: 已验证的测试数据

### 5.2 新增数据源建议
```bash
# WinoGender风格偏见测试集
wget https://github.com/rudinger/winogender-schemas/raw/master/data/...

# CodeBLEU性别平衡代码数据
# Math Word Problems性别平衡数学问题
```

### 5.3 数据质量保证
- 性别标注准确性验证
- 数据平衡性检查  
- 领域覆盖度分析

## 🚀 实施时间线

### Week 1: 基础评估
- [ ] 创建偏见评估脚本
- [ ] 在现有模型上运行完整benchmark  
- [ ] 建立评估基线

### Week 2: 真实数据训练
- [ ] 增强数据处理器支持Numina
- [ ] 在真实数据上训练纯debiasing模型
- [ ] 初步效果验证

### Week 3: 全面评估
- [ ] 所有benchmark测试
- [ ] 性能对比分析
- [ ] 结果可视化

### Week 4: 优化与扩展  
- [ ] 根据结果调优超参数
- [ ] 扩展到更大模型
- [ ] 撰写技术报告

## 🎯 成功标准

### 核心目标
- ✅ **偏见减少**: 熵差距 < 2%
- 🎯 **性能保持**: 主要benchmark性能下降 < 5%
- 🎯 **训练效率**: 训练时间 < 原GEE方法50%

### 评估指标权重
- 偏见减少效果: 40%
- 代码生成能力: 25%  
- 数学推理能力: 25%
- 训练效率: 10%

## 💡 下一步行动

1. **立即可做**: 创建偏见评估脚本
2. **本周内**: 在真实数据上训练  
3. **本月内**: 完成全面benchmark评估
4. **长期目标**: 建立标准化debiasing评估流程