7cec9e36ebd518986abce8954785766978e4


7ff3c028e2f206a26d81f6e74787746511

간단 설명:


기존 LLM들의 성능이 올라감에 따라 Block world라는 계획 수립 능력을 평가하는 테스트셋에서는 점수가 점점 올라서 최대 62.6%까지 도달했지만


Mystery Block world라는 Block world와 동일한 의미를 지니지만 구문이 난독화된 버전에서는 기존의 모든 LLM들이 0점에 가까운 성적을 거뒀음


그런데 여기서, o1-preview는


Block world에서 '97.8%',

Mystery Block world에서 '52.8%'를 기록하며


이전 LLM들과 아예 본질적으로 다른 행동 결과를 보임


논문 내용 중:


우리를 포함한 많은 연구자들은 "표준" 자기 회귀 LLM이 근사 검색을 통해 출력을 생성하고, 다양한 시스템 1 작업에서 인상적인 성능을 보여주지만 계획 작업에 필수적인 시스템 2와 유사한 근사 추론 기능을 달성하지 못할 가능성이 높다고 주장했습니다.


(중략...)


우리의 최선의 추측은 o1과 LLM 사이에 두 가지 주요 차이점이 있다는 것입니다. 추가 강화 학습 사전 훈련 단계(아마도 방대한 양의 합성 데이터에서 다른 CoT의 q 값을 학습하기 위한 것일 수 있음)와 새로운 적응적 확장 추론 절차(아마도 특정 CoT를 선택하기 전에 롤아웃과 같은 방법으로 학습된 q 값을 더욱 세분화할 수 있음)입니다. [3] ). 그럼에도 불구하고, 이용 가능한 세부 정보에서 분명하게 드러나는 것은 이 모델이 이전 LLM과 근본적으로 다른 특성을 가지고 있다는 것입니다.


이 벤치마크 만든 사람들도 LLM이 시스템2와 유사한 추론 기능을 달성하지 못할 가능성이 높다고 주장했는데, o1이 보기좋게 깨버림



논문 결론부:


우리는 SOTA LLM의 계획 수립 능력을 새롭게 살펴보았고,

OpenAI의 새로운 o1 모델의 PlanBench 성능을 조사했습니다.


시간이 지남에 따라 LLM은 일반 Blocksworld에서 성능이 향상되었으며,

가장 성능이 좋은 모델인 LlaMA 3.1 405B가 62.5%의 정확도를 달성했습니다.


그러나 동일한 도메인의 난독화된("Mystery") 버전에서의 형편없는 성능은

그들의 본질적으로 근사적 검색 특성을 드러냅니다.


대조적으로, 우리가 LRM(Large Reasoning Models)이라고 부르는 새로운 o1 모델은

- OpenAI 자체의 특성화에 따라 -

원래의 작은 인스턴스 Blockworld 테스트 세트를 거의 포화시킬 뿐만 아니라,

난독화된 버전에서도 처음으로 진전을 보여줍니다.