From 73c194f304f827b55081b15524479f82a1b7d94c Mon Sep 17 00:00:00 2001
From: maszhongming <mingz5@illinois.edu>
Date: Tue, 16 Sep 2025 15:15:29 -0500
Subject: Initial commit

---
 .../GPT/run_true_false_generation.py               | 52 ++++++++++++++++++++++
 1 file changed, 52 insertions(+)
 create mode 100644 kg_rag/rag_based_generation/GPT/run_true_false_generation.py

(limited to 'kg_rag/rag_based_generation/GPT/run_true_false_generation.py')

diff --git a/kg_rag/rag_based_generation/GPT/run_true_false_generation.py b/kg_rag/rag_based_generation/GPT/run_true_false_generation.py
new file mode 100644
index 0000000..7b8d0e3
--- /dev/null
+++ b/kg_rag/rag_based_generation/GPT/run_true_false_generation.py
@@ -0,0 +1,52 @@
+'''
+This script takes the True/False style questions from the csv file and save the result as another csv file. 
+Before running this script, make sure to configure the filepaths in config.yaml file.
+Command line argument should be either 'gpt-4' or 'gpt-35-turbo'
+'''
+
+from kg_rag.utility import *
+import sys
+
+CHAT_MODEL_ID = sys.argv[1]
+
+QUESTION_PATH = config_data["TRUE_FALSE_PATH"]
+SYSTEM_PROMPT = system_prompts["TRUE_FALSE_QUESTION"]
+QUESTION_VS_CONTEXT_SIMILARITY_PERCENTILE_THRESHOLD = float(config_data["QUESTION_VS_CONTEXT_SIMILARITY_PERCENTILE_THRESHOLD"])
+QUESTION_VS_CONTEXT_MINIMUM_SIMILARITY = float(config_data["QUESTION_VS_CONTEXT_MINIMUM_SIMILARITY"])
+VECTOR_DB_PATH = config_data["VECTOR_DB_PATH"]
+NODE_CONTEXT_PATH = config_data["NODE_CONTEXT_PATH"]
+SENTENCE_EMBEDDING_MODEL_FOR_NODE_RETRIEVAL = config_data["SENTENCE_EMBEDDING_MODEL_FOR_NODE_RETRIEVAL"]
+SENTENCE_EMBEDDING_MODEL_FOR_CONTEXT_RETRIEVAL = config_data["SENTENCE_EMBEDDING_MODEL_FOR_CONTEXT_RETRIEVAL"]
+TEMPERATURE = config_data["LLM_TEMPERATURE"]
+SAVE_PATH = config_data["SAVE_RESULTS_PATH"]
+CONTEXT_VOLUME = 100
+
+
+CHAT_DEPLOYMENT_ID = CHAT_MODEL_ID
+
+save_name = "_".join(CHAT_MODEL_ID.split("-"))+"_kg_rag_based_true_false_binary_response.csv"
+
+
+vectorstore = load_chroma(VECTOR_DB_PATH, SENTENCE_EMBEDDING_MODEL_FOR_NODE_RETRIEVAL)
+embedding_function_for_context_retrieval = load_sentence_transformer(SENTENCE_EMBEDDING_MODEL_FOR_CONTEXT_RETRIEVAL)
+node_context_df = pd.read_csv(NODE_CONTEXT_PATH)
+edge_evidence = False
+
+def main():
+    start_time = time.time()
+    question_df = pd.read_csv(QUESTION_PATH)
+    answer_list = []
+    for index, row in question_df.iterrows():
+        question = row["text"]
+        context =  retrieve_context(row["text"], vectorstore, embedding_function_for_context_retrieval, node_context_df, CONTEXT_VOLUME, QUESTION_VS_CONTEXT_SIMILARITY_PERCENTILE_THRESHOLD, QUESTION_VS_CONTEXT_MINIMUM_SIMILARITY, edge_evidence)
+        enriched_prompt = "Context: "+ context + "\n" + "Question: "+ question
+        output = get_GPT_response(enriched_prompt, SYSTEM_PROMPT, CHAT_MODEL_ID, CHAT_DEPLOYMENT_ID, temperature=TEMPERATURE)
+        answer_list.append((row["text"], row["label"], output))
+    answer_df = pd.DataFrame(answer_list, columns=["question", "label", "llm_answer"])
+    answer_df.to_csv(os.path.join(SAVE_PATH, save_name), index=False, header=True) 
+    print("Completed in {} min".format((time.time()-start_time)/60))
+    
+    
+if __name__ == "__main__":
+    main()
+
-- 
cgit v1.2.3