Revert Bash to text default

rryisthebest · rryisthebest · commit de50ff209b4c · 2024-12-06T19:34:19.000-06:00
diff --git a/bash/run_convert_results.sh b/bash/run_convert_results.sh
@@ -1,33 +1,22 @@
-#!/bin/bash
+data_dir=${REPO_DIR}/datasets/beir/
+output_dir=${REPO_DIR}/outputs/beir/
 
-data_dir=${REPO_DIR}/datasets/
-output_dir=${REPO_DIR}/outputs/
+# List of datasets to process
+datasets=('trec-covid') # 'climate-fever' 'fever' 'hotpotqa' 'msmarco' 'nfcorpus' 'nq' 'fiqa' 'scidocs' 'scifact' 'dbpedia-entity'
 
-RERANK_TYPE=${1:-"text"}  # Default to text if no argument provided
-
-if [ "$RERANK_TYPE" = "code" ]; then
-    # Code datasets to process
-    datasets=('csn_go')  # 'csn_go' 'csn_java' 'csn_python' 'csn_javascript' 'csn_php' 'csn_ruby' 'cosqa'
-    data_type="codedataset"
-else
-    # BEIR datasets to process
-    datasets=('trec-covid') # 'climate-fever' 'fever' 'hotpotqa' 'msmarco' 'nfcorpus' 'nq' 'fiqa' 'scidocs' 'scifact' 'dbpedia-entity'
-    data_type="beir"
-fi
-
-for dataset in "${datasets[@]}"; do
-    echo "Processing dataset: ${dataset} (${RERANK_TYPE} reranking)"
+# Iterate over datasets and process each one
+for datasets in "${datasets[@]}"; do
+    echo "Processing dataset: ${datasets}"
     
     if python "${REPO_DIR}/scripts/convert_results.py" \
-        --dataset "${dataset}" \
+        --dataset "${datasets}" \
         --output_dir "${output_dir}" \
-        --data_type "${data_type}" \
+        --data_type "beir" \
         --data_dir "${data_dir}" \
-        --top_k 100 \
-        --rerank_type "${RERANK_TYPE}"; then
-        echo "Successfully processed ${dataset}"
+        --top_k 100; then
+        echo "Successfully processed ${datasets}"
     else
-        echo "Failed to process ${dataset}" >&2
+        echo "Failed to process ${datasets}" >&2
         exit 1
     fi
 done
diff --git a/bash/run_eval.sh b/bash/run_eval.sh
@@ -1,38 +1,30 @@
 #!/bin/bash
 
+# Check if eval_type argument is provided
 if [ -z "$1" ]; then
-    echo "Usage: $0 <eval_type> [rerank_type]"
+    echo "Usage: $0 <eval_type>"
     exit 1
 fi
 
 EVAL_TYPE=$1
-RERANK_TYPE=${2:-"text"}  # Default to text if not specified
+DATA_DIR="${REPO_DIR}/datasets/beir/"
+OUTPUT_DIR="${REPO_DIR}/outputs/beir/"
 
-DATA_DIR="${REPO_DIR}/datasets/"
-OUTPUT_DIR="${REPO_DIR}/outputs/"
-
-if [ "$RERANK_TYPE" = "code" ]; then
-    # Code datasets to process
-    DATASETS=('csn_go')  # 'csn_go' 'csn_java' 'csn_python' 'csn_javascript' 'csn_php' 'csn_ruby' 'cosqa'
-    DATA_TYPE="codedataset"
-else
-    # BEIR datasets to process
-    DATASETS=('trec-covid') # 'climate-fever' 'fever' 'hotpotqa' 'msmarco' 'nfcorpus' 'nq' 'fiqa' 'scidocs' 'scifact' 'dbpedia-entity'
-    DATA_TYPE="beir"
-fi
+# List of datasets to process
+DATASETS=('trec-covid') # 'climate-fever' 'fever' 'hotpotqa' 'msmarco' 'nfcorpus' 'nq' 'fiqa' 'scidocs' 'scifact' 'dbpedia-entity'
 
+# Iterate over datasets and process each one
 for DATASET in "${DATASETS[@]}"; do
-    echo "Evaluating dataset: ${DATASET} (${RERANK_TYPE} reranking)"
+    echo "Evaluating dataset: ${DATASET}"
     
     # suffix: ce -> cross encoder reranker | llm_FIRST_alpha -> FIRST Model
     if python "${REPO_DIR}/scripts/eval.py" \
         --dataset "${DATASET}" \
         --output_path "${OUTPUT_DIR}" \
-        --data_type "${DATA_TYPE}" \
+        --data_type "beir" \
         --suffix "llm_FIRST_alpha" \
         --eval_type "${EVAL_TYPE}" \
-        --data_dir "${DATA_DIR}" \
-        --rerank_type "${RERANK_TYPE}"; then
+        --data_dir "${DATA_DIR}"; then
         echo "Successfully evaluated ${DATASET}"
     else
         echo "Failed to evaluate ${DATASET}" >&2
diff --git a/bash/run_rerank_llm.sh b/bash/run_rerank_llm.sh
@@ -1,36 +1,20 @@
 #!/bin/bash
 
 # Set directories and model
-DATA_DIR="${REPO_DIR}/datasets/"
-OUTPUT_DIR="${REPO_DIR}/outputs/"
+DATA_DIR="${REPO_DIR}/datasets/beir/"
+OUTPUT_DIR="${REPO_DIR}/outputs/beir/"
+MODEL_IN_USE="rryisthebest/First_Model"
 
-# Model configuration
-RERANK_TYPE=${1:-"text"} # Default to text
-CODE_PROMPT_TYPE=${2:-"docstring"} # Options: "docstring" or "github_issue" (only used when RERANK_TYPE=code)
-
-if [ "$RERANK_TYPE" = "code" ]; then
-    MODEL_IN_USE="cornstack/CodeRankLLM"
-    # Code reranking doesn't support logits and alpha
-    USE_LOGITS=0
-    USE_ALPHA=0
-else
-    MODEL_IN_USE="rryisthebest/First_Model"
-    # Text reranking configuration
-    USE_LOGITS=1  # Whether to use FIRST single token logit decoding
-    USE_ALPHA=1   # Whether to use Alphabetic Identifiers
-fi
+# Configuration flags
+USE_LOGITS=1  # Whether to use FIRST single token logit decoding
+USE_ALPHA=1   # Whether to use Alphabetic Identifiers
 
 # List of datasets to rerank
-if [ "$RERANK_TYPE" = "code" ]; then
-    # Datasets suitable for code reranking
-    DATASETS=('csn_ruby')  # 'javascript' 'go' 'php' 'ruby' 'java' 'python' 'cosqa'
-else
-    # Datasets for text reranking
-    DATASETS=('trec-covid') # 'climate-fever' 'fever' 'hotpotqa' 'msmarco' 'nfcorpus' 'nq' 'fiqa' 'scidocs' 'scifact' 'trec-covid'
-fi
+DATASETS=('dbpedia-entity') # 'climate-fever' 'fever' 'hotpotqa' 'msmarco' 'nfcorpus' 'nq' 'fiqa' 'scidocs' 'scifact' 'trec-covid'
 
+# Iterate over datasets and rerank each one
 for DATASET in "${DATASETS[@]}"; do
-    echo "Reranking dataset: ${DATASET} using ${RERANK_TYPE} reranking"
+    echo "Reranking dataset: ${DATASET}"
     
     if python "${REPO_DIR}/scripts/rerank_llm.py" \
         --model "${MODEL_IN_USE}" \
@@ -43,12 +27,10 @@ for DATASET in "${DATASETS[@]}"; do
         --llm_top_k 100 \
         --window_size 20 \
         --step_size 10 \
-        --do_batched 1 \
-        --rerank_type "${RERANK_TYPE}" \
-        --code_prompt_type "${CODE_PROMPT_TYPE}"; then
-        echo "Successfully reranked ${DATASET} with ${RERANK_TYPE} reranker"
+        --do_batched 1; then
+        echo "Successfully reranked ${DATASET} with LLM reranker"
     else
-        echo "Failed to rerank ${DATASET} with ${RERANK_TYPE} reranker" >&2
+        echo "Failed to rerank ${DATASET} with LLM reranker" >&2
         exit 1
     fi
 done