Search Results: benchmark-evaluation

Found 2 Skills

AI & Machine Learningorchestra-research/ai-res...

evolving-ai-agents

Provides guidance for automatically evolving and optimizing AI agents across any domain using LLM-driven evolution algorithms. Use when building self-improving agents, optimizing agent prompts and skills against benchmarks, or implementing automated agent evaluation loops.

🇺🇸|EnglishTranslated

AI & Machine Learningnotque/claude-code-toolki...

agent-comparison

A/B test agent variants measuring quality and total session token cost across simple and complex benchmarks. Use when creating compact agent versions, validating agent changes, comparing internal vs external agents, or deciding between variants for production. Use for "compare agents", "A/B test", "benchmark agents", or "test agent efficiency". Do NOT use for evaluating single agents, testing skills, or optimizing prompts without variant comparison.

🇺🇸|EnglishTranslated

1 scripts/Checked