머숨 미러

7cec9e36ebd518986abce8954785766978e4

7ff3c028e2f206a26d81f6e74787746511

간단 설명:

기존 LLM들의 성능이 올라감에 따라 Block world라는 계획 수립 능력을 평가하는 테스트셋에서는 점수가 점점 올라서 최대 62.6%까지 도달했지만

Mystery Block world라는 Block world와 동일한 의미를 지니지만 구문이 난독화된 버전에서는 기존의 모든 LLM들이 0점에 가까운 성적을 거뒀음

그런데 여기서, o1-preview는

Block world에서 '97.8%',

Mystery Block world에서 '52.8%'를 기록하며

이전 LLM들과 아예 본질적으로 다른 행동 결과를 보임

논문 내용 중:

우리를 포함한 많은 연구자들은 "표준" 자기 회귀 LLM이 근사 검색을 통해 출력을 생성하고, 다양한 시스템 1 작업에서 인상적인 성능을 보여주지만 계획 작업에 필수적인 시스템 2와 유사한 근사 추론 기능을 달성하지 못할 가능성이 높다고 주장했습니다.

(중략...)

우리의 최선의 추측은 o1과 LLM 사이에 두 가지 주요 차이점이 있다는 것입니다. 추가 강화 학습 사전 훈련 단계(아마도 방대한 양의 합성 데이터에서 다른 CoT의 q 값을 학습하기 위한 것일 수 있음)와 새로운 적응적 확장 추론 절차(아마도 특정 CoT를 선택하기 전에 롤아웃과 같은 방법으로 학습된 q 값을 더욱 세분화할 수 있음)입니다. [3] ). 그럼에도 불구하고, 이용 가능한 세부 정보에서 분명하게 드러나는 것은 이 모델이 이전 LLM과 근본적으로 다른 특성을 가지고 있다는 것입니다.

이 벤치마크 만든 사람들도 LLM이 시스템2와 유사한 추론 기능을 달성하지 못할 가능성이 높다고 주장했는데, o1이 보기좋게 깨버림

논문 결론부:

우리는 SOTA LLM의 계획 수립 능력을 새롭게 살펴보았고,

OpenAI의 새로운 o1 모델의 PlanBench 성능을 조사했습니다.

시간이 지남에 따라 LLM은 일반 Blocksworld에서 성능이 향상되었으며,

가장 성능이 좋은 모델인 LlaMA 3.1 405B가 62.5%의 정확도를 달성했습니다.

그러나 동일한 도메인의 난독화된("Mystery") 버전에서의 형편없는 성능은

그들의 본질적으로 근사적 검색 특성을 드러냅니다.

대조적으로, 우리가 LRM(Large Reasoning Models)이라고 부르는 새로운 o1 모델은

- OpenAI 자체의 특성화에 따라 -

원래의 작은 인스턴스 Blockworld 테스트 세트를 거의 포화시킬 뿐만 아니라,

난독화된 버전에서도 처음으로 진전을 보여줍니다.

익명(mode1667) 2024-09-24 04:13:00

모두 수고했다

익명(116.36) 2024-09-24 04:14:00

퐁칸8(zxvw157) 2024-09-24 04:16:00

캬

익명(115.139) 2024-09-24 04:25:00

익명(182.230) 2024-09-24 04:26:00

저거 르쿤행님이 레퍼런스로 들이대몀서 “LLM은 추론 불가능합니다.”라던 건데 ㅋㅋㅋ - dc App

초존도초(htr3c654r6ft) 2024-09-24 05:06:00

답글

야, 르쿤 - dc App

익명(114.201) 2024-09-24 06:23:00

답글

빙냥이ㄱㅇㅇ(6zd2cxvc44h4) 2024-09-24 08:56:00

시벌 슬슬 발전속도가 골대 옮기는 속도보다 빨라지겠는데

익명(39.117) 2024-09-24 05:10:00

MoonChild(aowlr2001) 2024-09-24 08:15:00

이제 아예 lrm이라고 따로 분류하네 이제부터는 lrm의 시대다 - dc App

천사다천사(jjtheman999) 2024-09-24 08:26:00

답글

명칭 좋네 거대 추론 모델

ㅇㅋ(ijh2005) 2024-09-24 09:04:00

Api 값 좀 낮춰다오 알트만아...

바다기린(hancomputer) 2024-09-24 08:32:00

이게 행복이고 이게 기쁨이고 이게 사랑이고 이게 연애고 이게 결혼이지

부패하는유전자!!!(sansss2015) 2024-09-24 08:40:00

심지어 프리뷰 아님?

빙냥이ㄱㅇㅇ(6zd2cxvc44h4) 2024-09-24 08:56:00

답글

이게 ㄹㅇ 무서운 거지 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

익명(222.101) 2024-09-24 11:13:00

답글

아 그러네 프리뷰네ㅋㅋㅋㅋ

익명(mode1667) 2024-09-24 11:36:00

답글

뭔 - dc App

재명세(touched5243) 2024-09-24 13:30:00

lessmean(boxing8245) 2024-09-24 09:02:00

고생했다

익명(112.186) 2024-09-24 09:25:00

도로시냥(slzpdnjsxnf) 2024-09-24 09:36:00

이제 AGI는 내년에 올까 내후년에 올까 이런걸 걱정해야될때네... 이런 속도라면 ASI까지 길어도 10년이면 확정이고

익명(211.252) 2024-09-24 11:13:00

AGI는 2029년 안에 확정적으로 나올듯

익명(14.51) 2024-09-24 11:58:00

익명(model9051) 2024-09-24 14:10:00

[🏆베스트] o1 새로운 벤치마크 엄청난 도약

댓글 24

[🏆베스트] o1 새로운 벤치마크 엄청난 도약

댓글 24

다른 게시글

asi나오면 완몰가 더

20년뒤면 내 나이 40중반이네

돈 쏟아붓는거 보면 확정인게 보임

나중에 BCI가 많이 발전해도

나는 혹시 몰라서 머리카락 보관해둠

인간은 지수발전에 대한 직관이 끔찍하다

지금 당장 특갤럼들이 해야할 것

2016년부터 특이점 온다고 강하게 믿고 있었는데

asi가 천천히가 됨?

6개월전 perplexity CEO 트윗