litellm json-repair datasets tqdm matplotlib human_eval bigcodebench