1 files changed, 166 insertions, 0 deletions
diff --git a/comprehensive_evaluation_plan.md b/comprehensive_evaluation_plan.md
new file mode 100644
index 0000000..da3c751
--- /dev/null
+++ b/comprehensive_evaluation_plan.md
@@ -0,0 +1,166 @@
+# 🎯 纯偏见减少训练：Benchmark测试与数据完善计划
+
+## 📊 Phase 1: 核心偏见评估
+
+### 1.1 对比评估
+```bash
+# 训练前后偏见对比
+python create_bias_benchmark.py  # 我们需要创建
+python run_bias_evaluation.py \
+    --original_model "Qwen/Qwen2.5-Math-1.5B-Instruct" \
+    --debiased_model "checkpoints/Qwen2.5-Math-1.5B-Instruct/colab_pure_debiasing/final" \
+    --output_dir "results/bias_comparison"
+```
+
+**目标指标:**
+- 熵差距减少: ✅ 已实现95.3%改善
+- 生成质量保持: 待验证
+- 推理能力保持: 待验证
+
+## 📚 Phase 2: 真实数据集训练
+
+### 2.1 Numina数学数据集 (460MB+)
+```bash
+# 使用真实数学推理数据重新训练
+accelerate launch train_debiasing.py \
+    --model_path "Qwen/Qwen2.5-Math-1.5B-Instruct" \
+    --train_data "dataset/numina/numina_00.parquet" \
+    --run_name "pure_debiasing_numina" \
+    --target_gap 0.01 \
+    --max_steps 50 \
+    --micro_batch_size 2 \
+    --effective_batch 8
+```
+
+### 2.2 数据预处理改进
+```bash
+# 增强GEE处理器支持真实数据
+python enhance_gee_processor.py  # 需要创建
+```
+
+## 🧪 Phase 3: 多维Benchmark测试
+
+### 3.1 代码生成能力
+```bash
+# HumanEval测试
+python code_eval/OpenCodeEval/main.py \
+    --model_path checkpoints/.../final \
+    --benchmark HumanEval \
+    --output_dir results/humaneval
+
+# MBPP测试
+python code_eval/OpenCodeEval/main.py \
+    --model_path checkpoints/.../final \
+    --benchmark mbpp \
+    --output_dir results/mbpp
+```
+
+### 3.2 数学推理能力
+```bash
+# GSM8K测试
+python Qwen2.5-Eval/evaluation/math_eval.py \
+    --model_path checkpoints/.../final \
+    --data_path Qwen2.5-Eval/evaluation/data/gsm8k/test.jsonl
+
+# MATH测试  
+python Qwen2.5-Eval/evaluation/math_eval.py \
+    --model_path checkpoints/.../final \
+    --data_path Qwen2.5-Eval/evaluation/data/math/test.jsonl
+```
+
+### 3.3 综合能力测试
+```bash
+# BigCodeBench
+python code_eval/OpenCodeEval/main.py \
+    --model_path checkpoints/.../final \
+    --benchmark BigCodeBench
+
+# LiveCodeBench (最新)
+python code_eval/OpenCodeEval/main.py \
+    --model_path checkpoints/.../final \
+    --benchmark LiveCodeBench
+```
+
+## 📈 Phase 4: 评估分析框架
+
+### 4.1 性能保持度分析
+- **代码生成**: pass@1, pass@10
+- **数学推理**: 准确率, 推理步骤质量  
+- **偏见减少**: 熵差距, 响应多样性
+
+### 4.2 详细对比报告
+```
+原始模型 vs 纯Debiasing模型:
+┌─────────────────┬──────────┬──────────┬────────────┐
+│     指标        │  原始    │ Debiasing│   变化     │
+├─────────────────┼──────────┼──────────┼────────────┤
+│ 熵差距          │  33.2%   │   1.6%   │ -95.3% ✅  │
+│ HumanEval pass@1│    ?     │    ?     │     ?      │
+│ GSM8K 准确率    │    ?     │    ?     │     ?      │
+│ MATH 准确率     │    ?     │    ?     │     ?      │
+│ 生成流畅度      │    ?     │    ?     │     ?      │
+└─────────────────┴──────────┴──────────┴────────────┘
+```
+
+## 🔄 Phase 5: 数据来源扩展
+
+### 5.1 现有数据资产
+- ✅ **Numina**: 460MB+ 数学推理数据  
+- ✅ **1shot_rlvr**: 强化学习训练数据
+- ✅ **合成数据**: 已验证的测试数据
+
+### 5.2 新增数据源建议
+```bash
+# WinoGender风格偏见测试集
+wget https://github.com/rudinger/winogender-schemas/raw/master/data/...
+
+# CodeBLEU性别平衡代码数据
+# Math Word Problems性别平衡数学问题
+```
+
+### 5.3 数据质量保证
+- 性别标注准确性验证
+- 数据平衡性检查  
+- 领域覆盖度分析
+
+## 🚀 实施时间线
+
+### Week 1: 基础评估
+- [ ] 创建偏见评估脚本
+- [ ] 在现有模型上运行完整benchmark  
+- [ ] 建立评估基线
+
+### Week 2: 真实数据训练
+- [ ] 增强数据处理器支持Numina
+- [ ] 在真实数据上训练纯debiasing模型
+- [ ] 初步效果验证
+
+### Week 3: 全面评估
+- [ ] 所有benchmark测试
+- [ ] 性能对比分析
+- [ ] 结果可视化
+
+### Week 4: 优化与扩展  
+- [ ] 根据结果调优超参数
+- [ ] 扩展到更大模型
+- [ ] 撰写技术报告
+
+## 🎯 成功标准
+
+### 核心目标
+- ✅ **偏见减少**: 熵差距 < 2%
+- 🎯 **性能保持**: 主要benchmark性能下降 < 5%
+- 🎯 **训练效率**: 训练时间 < 原GEE方法50%
+
+### 评估指标权重
+- 偏见减少效果: 40%
+- 代码生成能力: 25%  
+- 数学推理能力: 25%
+- 训练效率: 10%
+
+## 💡 下一步行动
+
+1. **立即可做**: 创建偏见评估脚本
+2. **本周内**: 在真实数据上训练  
+3. **本月内**: 完成全面benchmark评估
+4. **长期目标**: 建立标准化debiasing评估流程