Stage 2: Peer Rankings

Raw Evaluations

Each model evaluated all responses (anonymized as Response A, B, C, etc.) and provided rankings. Below, model names are shown in bold for readability, but the original evaluation used anonymous labels.

{rankings.map((rank, index) => ( ))}

{rankings[activeTab].model}

{deAnonymizeText(rankings[activeTab].ranking, labelToModel)}

{rankings[activeTab].parsed_ranking && rankings[activeTab].parsed_ranking.length > 0 && (

Extracted Ranking:

{labelToModel && labelToModel[label] ? labelToModel[label].split('/')[1] || labelToModel[label] : label}

)}

{aggregateRankings && aggregateRankings.length > 0 && (

Aggregate Rankings (Street Cred)

Combined results across all peer evaluations (lower score is better):

{aggregateRankings.map((agg, index) => (

#{index + 1} {agg.model.split('/')[1] || agg.model} Avg: {agg.average_rank.toFixed(2)} ({agg.rankings_count} votes)

))}

)}