머숨 미러

https://arxiv.org/pdf/2508.01780

MCP(Model Context Protocol)의 급속한 발전으로 MCP 서버 수가 10,000개를 넘어섰지만, 기존 MCP 벤치마크는 소수의 도구만을 사용하는 단일 서버 환경에 국한되어 대규모 실제 시나리오에서의 에이전트 능력 평가에 한계가 있었다.

이러한 한계를 해결하기 위해 우리는 MCP 생태계에 기반한 95개의 실제 작업으로 구성된 최초의 종합 벤치마크인 LiveMCPBench를 제시하며, 이는 다양한 서버 환경에서 LLM 에이전트를 대규모로 평가하도록 설계되었다.

대규모 MCP 환경에서 확장 가능하고 재현 가능한 평가 파이프라인을 지원하기 위해 70개의 MCP 서버와 527개의 도구로 구성된 다양하고 즉시 배포 가능한 컬렉션인 LiveMCPTool을 구축했다.

또한 동적이고 시간에 따라 변화하는 작업 환경에서 자동화된 적응형 평가를 가능하게 하는 LLM-as-a-Judge 프레임워크인 LiveMCPEval을 도입하여 인간 검토자와 81%의 일치율을 달성했다.

마지막으로 전체 LiveMCPTool 제품군에서 동적 계획을 위한 도구 라우팅과 API 상호작용을 위한 도구 실행을 수행하는 다단계 에이전트인 MCP Copilot Agent를 제안한다. 10개의 주요 모델에 대한 평가 결과 최고 성능 모델(Claude Sonnet-4)이 78.95%의 성공률을 기록했으나, 모델 간 성능 편차가 크고 여러 널리 사용되는 모델들이 LiveMCPBench의 복잡하고 도구가 풍부한 환경에서 저조한 성능을 보였다.

36ee877eb0f768f537f286914489696968ef2da841facc167f3486882cd4aaae808047fa94e53942b2f5ba64da908d730067f0ff10

36e9f402b6f769f54cf28fed43836969a1f79f07ba658a3275a1b885ab32d146fddf7b4053cc2abdc1d8826583ee6e688ea28f38a0

[일반] 속보) MCP 벤치마크 입갤

댓글 3

[일반] 속보) MCP 벤치마크 입갤

댓글 3

다른 게시글

나만 클로드코드보다 GPT High가 더 나은거같나

nsa 저 프로덕션레벨코드보니까

뚜왈기 맥이는 카탈로그

codex cli 로그인 진짜 지랄 맞네

llm ai 회사들이 첨단을 달리지만

커서 gpt 5 high는 좋네

챗GPT에게 잘못된 의학조언을 받고 한 남성이 입원함

여기있는 사람글 gpt통해서 돈벌고 있는 사람 있어??

아오 시발 따먹고싶네

독재국가가 아이러니하게 과도기 쉽게 버틸