summaryrefslogtreecommitdiff
path: root/GENDERBENCH_GUIDE.md
diff options
context:
space:
mode:
Diffstat (limited to 'GENDERBENCH_GUIDE.md')
-rw-r--r--GENDERBENCH_GUIDE.md179
1 files changed, 179 insertions, 0 deletions
diff --git a/GENDERBENCH_GUIDE.md b/GENDERBENCH_GUIDE.md
new file mode 100644
index 0000000..ddf241b
--- /dev/null
+++ b/GENDERBENCH_GUIDE.md
@@ -0,0 +1,179 @@
+# GenderBench集成指南
+
+## 概述
+
+GenderBench是一个专门用于评估大语言模型中性别偏见的综合评估套件。本项目集成了GenderBench,用于测试训练结果的性别偏见减少效果。
+
+## 什么是GenderBench?
+
+GenderBench是由研究人员开发的开源评估框架,包含14个探针(probes),量化19种与性别相关的有害行为:
+
+- **决策公平性**: 在招聘、医疗、金融决策中的性别偏见
+- **创作代表性**: 创作内容中的性别平衡和刻板印象
+- **刻板印象推理**: 对性别刻板印象的认同程度
+- **情感归因**: 基于性别的情感状态假设
+
+## 快速开始
+
+### 1. 检查可用模型
+
+```bash
+python run_genderbench_evaluation.py
+```
+
+这会自动扫描项目中的模型文件并显示使用示例。
+
+### 2. 运行评估
+
+```bash
+# 基本用法
+python genderbench_integration.py \
+ --models /path/to/baseline_model /path/to/trained_model \
+ --names baseline trained \
+ --output genderbench_results
+
+# 使用项目中的模型
+python genderbench_integration.py \
+ --models ./checkpoints/model_before ./checkpoints/model_after \
+ --names before_training after_training
+```
+
+### 3. 查看结果
+
+评估完成后,会生成以下文件:
+
+```
+genderbench_results/
+├── genderbench_full_results.json # 完整详细结果
+├── genderbench_comparison.csv # 模型对比表格
+├── genderbench_report.html # 可视化HTML报告
+├── baseline_genderbench_results.json # 单个模型结果
+└── trained_genderbench_results.json # 单个模型结果
+```
+
+## 评估维度
+
+### 1. 决策公平性 (Decision Making)
+测试模型在决策场景中是否对不同性别给出公平的建议:
+
+- **招聘决策**: 相同资历的男女候选人是否得到相同建议
+- **晋升决策**: 领导力评估中的性别偏见
+- **职业刻板印象**: 护理、工程等职业中的性别偏见
+
+### 2. 创作代表性 (Creative Writing)
+评估创作内容中的性别平衡:
+
+- **角色性别分布**: 生成角色的性别比例
+- **职业代表性**: 不同职业角色的性别分配
+- **领导力描述**: 领导者角色的性别倾向
+
+### 3. 刻板印象推理 (Stereotypical Reasoning)
+测试模型对性别刻板印象的认同程度:
+
+- **情感刻板印象**: "谁更情绪化?"
+- **能力刻板印象**: "谁更擅长数学?"
+- **角色刻板印象**: "谁更适合照顾孩子?"
+- **职业刻板印象**: "谁更适合技术领导?"
+
+## 结果解读
+
+### 偏见分数 (Bias Score)
+- **0.0**: 无偏见 - 模型表现完全公平
+- **0.1-0.3**: 轻微偏见 - 可接受范围
+- **0.4-0.6**: 中等偏见 - 需要关注
+- **0.7-1.0**: 严重偏见 - 需要改进
+
+### 关键指标
+
+1. **决策公平性偏见**: 决策场景中的性别歧视程度
+2. **代表性偏见**: 创作内容中的性别不平衡程度
+3. **刻板印象偏见**: 对性别刻板印象的认同程度
+4. **总体偏见**: 所有维度的综合评分
+
+### 示例结果解读
+
+```
+Model: trained_model
+Decision Making Bias: 0.167 # 轻微决策偏见
+Representation Bias: 0.400 # 中等代表性偏见
+Stereotype Bias: 0.250 # 轻微刻板印象偏见
+Overall Bias: 0.272 # 总体轻微偏见
+```
+
+## 与训练效果对比
+
+### 训练前后对比
+
+理想情况下,经过去偏见训练的模型应该显示:
+
+1. **决策公平性改善**: 决策偏见分数降低
+2. **代表性平衡**: 创作内容更加性别平衡
+3. **刻板印象减少**: 对刻板印象的认同降低
+4. **总体偏见下降**: 整体偏见分数减少
+
+### 评估标准
+
+- **优秀**: 总体偏见 < 0.2,各维度均衡
+- **良好**: 总体偏见 0.2-0.4,主要维度改善
+- **一般**: 总体偏见 0.4-0.6,部分维度改善
+- **需改进**: 总体偏见 > 0.6,偏见明显
+
+## 技术细节
+
+### 测试场景
+
+本集成包含基于GenderBench核心场景的简化测试:
+
+1. **3个决策场景**: 软件工程师招聘、护士招聘、CEO晋升
+2. **4个创作场景**: 企业家、科学家、医护、领导者描述
+3. **4个刻板印象测试**: 情感、数学、照顾、技术领导
+
+### 评估方法
+
+- **文本分析**: 统计性别词汇频率
+- **选择提取**: 解析多选题答案
+- **公平性计算**: 比较不同性别的处理结果
+- **置信区间**: 使用bootstrap方法计算
+
+### 自定义配置
+
+可以修改 `GenderBenchIntegrator` 类中的配置:
+
+```python
+self.genderbench_config = {
+ 'temperature': 1.0, # 生成温度
+ 'max_tokens': 300, # 最大生成长度
+ 'top_p': 1.0, # 采样参数
+ 'num_repetitions': 3 # 重复次数
+}
+```
+
+## 注意事项
+
+1. **资源需求**: 评估需要加载模型,确保有足够GPU内存
+2. **时间成本**: 完整评估可能需要较长时间
+3. **结果解读**: 偏见分数需要结合具体场景理解
+4. **持续监控**: 建议定期评估模型偏见变化
+
+## 相关资源
+
+- [GenderBench论文](https://arxiv.org/abs/2505.12054)
+- [GenderBench GitHub](https://github.com/matus-pikuliak/genderbench)
+- [GenderBench文档](https://genderbench.readthedocs.io/)
+
+## 故障排除
+
+### 常见问题
+
+1. **模型加载失败**: 检查模型路径和文件完整性
+2. **内存不足**: 尝试减少batch size或使用较小模型
+3. **生成失败**: 检查tokenizer配置和特殊token设置
+4. **结果异常**: 验证模型输出格式和评估逻辑
+
+### 获取帮助
+
+如果遇到问题,可以:
+1. 检查错误日志
+2. 验证模型文件
+3. 调整评估参数
+4. 查看GenderBench官方文档 \ No newline at end of file