Add BoolQ evaluation results via inspect-ai on HF Jobs

**Description:**

This PR adds BoolQ evaluation results for `openai/gpt-oss-20b`, following the Hugging Face Skills evaluation workflow.

- Benchmark: BoolQ (google/boolq, validation split)
- Task: `inspect_evals/boolq`
- Framework: `inspect-ai` + `inspect-evals`
- Infra: `hf jobs uv run` on `a10g-small`, Inference Providers
- Metric: accuracy = 89.1% (stderr = 0.005)

The command used was:

```bash
hf jobs uv run hf_model_evaluation/scripts/inspect_eval_uv.py \
--flavor a10g-small \
--secrets HF_TOKEN \
-- \
--model "openai/gpt-oss-20b" \
--task "inspect_evals/boolq"
```

Files changed (1) hide show

README.md +37 -1

README.md CHANGED Viewed

@@ -4,6 +4,21 @@ pipeline_tag: text-generation
 library_name: transformers
 tags:
 - vllm
 ---
 <p align="center">
@@ -179,4 +194,25 @@ This smaller model `gpt-oss-20b` can be fine-tuned on consumer hardware, whereas
       primaryClass={cs.CL},
       url={https://arxiv.org/abs/2508.10925},
 }
-```

 library_name: transformers
 tags:
 - vllm
+model-index:
+  - name: ChatGPT-OSS 20B
+    results:
+      - task:
+          name: BoolQ
+          type: boolq
+        dataset:
+          name: BoolQ
+          type: google/boolq
+          config: default
+          split: validation
+        metrics:
+          - name: accuracy
+            type: accuracy
+            value: 89.1
 ---
 <p align="center">
       primaryClass={cs.CL},
       url={https://arxiv.org/abs/2508.10925},
 }
+```
+## Evaluation
+This model was evaluated on the **BoolQ** benchmark using the `inspect-ai` framework and `inspect-evals`, run on Hugging Face Jobs with Inference Providers.
+**Benchmark:** BoolQ (google/boolq, validation split, 3,270 examples)
+**Task:** `inspect_evals/boolq`
+**Framework:** `inspect-ai` + `inspect-evals`
+**Infrastructure:** `hf jobs uv run` on an `a10g-small` GPU
+**Provider model:** `hf-inference-providers/openai/gpt-oss-20b`
+**Metric:** accuracy = **89.1%** (stderr = 0.005)
+**Command used:**
+```bash
+hf jobs uv run hf_model_evaluation/scripts/inspect_eval_uv.py \
+  --flavor a10g-small \
+  --secrets HF_TOKEN \
+  -- \
+  --model "openai/gpt-oss-20b" \
+  --task "inspect_evals/boolq"