https://arxiv.org/pdf/2508.01780
MCP(Model Context Protocol)의 급속한 발전으로 MCP 서버 수가 10,000개를 넘어섰지만, 기존 MCP 벤치마크는 소수의 도구만을 사용하는 단일 서버 환경에 국한되어 대규모 실제 시나리오에서의 에이전트 능력 평가에 한계가 있었다.
이러한 한계를 해결하기 위해 우리는 MCP 생태계에 기반한 95개의 실제 작업으로 구성된 최초의 종합 벤치마크인 LiveMCPBench를 제시하며, 이는 다양한 서버 환경에서 LLM 에이전트를 대규모로 평가하도록 설계되었다.
대규모 MCP 환경에서 확장 가능하고 재현 가능한 평가 파이프라인을 지원하기 위해 70개의 MCP 서버와 527개의 도구로 구성된 다양하고 즉시 배포 가능한 컬렉션인 LiveMCPTool을 구축했다.
또한 동적이고 시간에 따라 변화하는 작업 환경에서 자동화된 적응형 평가를 가능하게 하는 LLM-as-a-Judge 프레임워크인 LiveMCPEval을 도입하여 인간 검토자와 81%의 일치율을 달성했다.
마지막으로 전체 LiveMCPTool 제품군에서 동적 계획을 위한 도구 라우팅과 API 상호작용을 위한 도구 실행을 수행하는 다단계 에이전트인 MCP Copilot Agent를 제안한다. 10개의 주요 모델에 대한 평가 결과 최고 성능 모델(Claude Sonnet-4)이 78.95%의 성공률을 기록했으나, 모델 간 성능 편차가 크고 여러 널리 사용되는 모델들이 LiveMCPBench의 복잡하고 도구가 풍부한 환경에서 저조한 성능을 보였다.
역시 클황
클황 진짜 씹간지네
역시 MCP 도구 사용은 클황이 압도적이네 ㅋㅋ