diff options
| author | haoyuren <13851610112@163.com> | 2025-06-27 16:13:55 -0700 |
|---|---|---|
| committer | haoyuren <13851610112@163.com> | 2025-06-27 16:13:55 -0700 |
| commit | 9bfc102b7679319d65379728c0639802377986da (patch) | |
| tree | 4066abf5c78505ee85c2772b146acaed3e5ae638 /comprehensive_evaluation_plan.md | |
| parent | aba91abcfeac33fb25eac6e2066fa6cad0deeeaa (diff) | |
Diffstat (limited to 'comprehensive_evaluation_plan.md')
| -rw-r--r-- | comprehensive_evaluation_plan.md | 166 |
1 files changed, 166 insertions, 0 deletions
diff --git a/comprehensive_evaluation_plan.md b/comprehensive_evaluation_plan.md new file mode 100644 index 0000000..da3c751 --- /dev/null +++ b/comprehensive_evaluation_plan.md @@ -0,0 +1,166 @@ +# 🎯 纯偏见减少训练:Benchmark测试与数据完善计划 + +## 📊 Phase 1: 核心偏见评估 + +### 1.1 对比评估 +```bash +# 训练前后偏见对比 +python create_bias_benchmark.py # 我们需要创建 +python run_bias_evaluation.py \ + --original_model "Qwen/Qwen2.5-Math-1.5B-Instruct" \ + --debiased_model "checkpoints/Qwen2.5-Math-1.5B-Instruct/colab_pure_debiasing/final" \ + --output_dir "results/bias_comparison" +``` + +**目标指标:** +- 熵差距减少: ✅ 已实现95.3%改善 +- 生成质量保持: 待验证 +- 推理能力保持: 待验证 + +## 📚 Phase 2: 真实数据集训练 + +### 2.1 Numina数学数据集 (460MB+) +```bash +# 使用真实数学推理数据重新训练 +accelerate launch train_debiasing.py \ + --model_path "Qwen/Qwen2.5-Math-1.5B-Instruct" \ + --train_data "dataset/numina/numina_00.parquet" \ + --run_name "pure_debiasing_numina" \ + --target_gap 0.01 \ + --max_steps 50 \ + --micro_batch_size 2 \ + --effective_batch 8 +``` + +### 2.2 数据预处理改进 +```bash +# 增强GEE处理器支持真实数据 +python enhance_gee_processor.py # 需要创建 +``` + +## 🧪 Phase 3: 多维Benchmark测试 + +### 3.1 代码生成能力 +```bash +# HumanEval测试 +python code_eval/OpenCodeEval/main.py \ + --model_path checkpoints/.../final \ + --benchmark HumanEval \ + --output_dir results/humaneval + +# MBPP测试 +python code_eval/OpenCodeEval/main.py \ + --model_path checkpoints/.../final \ + --benchmark mbpp \ + --output_dir results/mbpp +``` + +### 3.2 数学推理能力 +```bash +# GSM8K测试 +python Qwen2.5-Eval/evaluation/math_eval.py \ + --model_path checkpoints/.../final \ + --data_path Qwen2.5-Eval/evaluation/data/gsm8k/test.jsonl + +# MATH测试 +python Qwen2.5-Eval/evaluation/math_eval.py \ + --model_path checkpoints/.../final \ + --data_path Qwen2.5-Eval/evaluation/data/math/test.jsonl +``` + +### 3.3 综合能力测试 +```bash +# BigCodeBench +python code_eval/OpenCodeEval/main.py \ + --model_path checkpoints/.../final \ + --benchmark BigCodeBench + +# LiveCodeBench (最新) +python code_eval/OpenCodeEval/main.py \ + --model_path checkpoints/.../final \ + --benchmark LiveCodeBench +``` + +## 📈 Phase 4: 评估分析框架 + +### 4.1 性能保持度分析 +- **代码生成**: pass@1, pass@10 +- **数学推理**: 准确率, 推理步骤质量 +- **偏见减少**: 熵差距, 响应多样性 + +### 4.2 详细对比报告 +``` +原始模型 vs 纯Debiasing模型: +┌─────────────────┬──────────┬──────────┬────────────┐ +│ 指标 │ 原始 │ Debiasing│ 变化 │ +├─────────────────┼──────────┼──────────┼────────────┤ +│ 熵差距 │ 33.2% │ 1.6% │ -95.3% ✅ │ +│ HumanEval pass@1│ ? │ ? │ ? │ +│ GSM8K 准确率 │ ? │ ? │ ? │ +│ MATH 准确率 │ ? │ ? │ ? │ +│ 生成流畅度 │ ? │ ? │ ? │ +└─────────────────┴──────────┴──────────┴────────────┘ +``` + +## 🔄 Phase 5: 数据来源扩展 + +### 5.1 现有数据资产 +- ✅ **Numina**: 460MB+ 数学推理数据 +- ✅ **1shot_rlvr**: 强化学习训练数据 +- ✅ **合成数据**: 已验证的测试数据 + +### 5.2 新增数据源建议 +```bash +# WinoGender风格偏见测试集 +wget https://github.com/rudinger/winogender-schemas/raw/master/data/... + +# CodeBLEU性别平衡代码数据 +# Math Word Problems性别平衡数学问题 +``` + +### 5.3 数据质量保证 +- 性别标注准确性验证 +- 数据平衡性检查 +- 领域覆盖度分析 + +## 🚀 实施时间线 + +### Week 1: 基础评估 +- [ ] 创建偏见评估脚本 +- [ ] 在现有模型上运行完整benchmark +- [ ] 建立评估基线 + +### Week 2: 真实数据训练 +- [ ] 增强数据处理器支持Numina +- [ ] 在真实数据上训练纯debiasing模型 +- [ ] 初步效果验证 + +### Week 3: 全面评估 +- [ ] 所有benchmark测试 +- [ ] 性能对比分析 +- [ ] 结果可视化 + +### Week 4: 优化与扩展 +- [ ] 根据结果调优超参数 +- [ ] 扩展到更大模型 +- [ ] 撰写技术报告 + +## 🎯 成功标准 + +### 核心目标 +- ✅ **偏见减少**: 熵差距 < 2% +- 🎯 **性能保持**: 主要benchmark性能下降 < 5% +- 🎯 **训练效率**: 训练时间 < 原GEE方法50% + +### 评估指标权重 +- 偏见减少效果: 40% +- 代码生成能力: 25% +- 数学推理能力: 25% +- 训练效率: 10% + +## 💡 下一步行动 + +1. **立即可做**: 创建偏见评估脚本 +2. **本周内**: 在真实数据上训练 +3. **本月内**: 完成全面benchmark评估 +4. **长期目标**: 建立标准化debiasing评估流程 |
