OpenAI의 획기적인 Q*는 무엇일까요?

1. Q-러닝과 관련이 있는 것 같습니다. (예를 들어, Q*는 벨맨 방정식의 최적 해를 나타냅니다.)
2. 또는 A* 알고리즘과 Q 학습의 조합을 가리키는 것일 수도 있습니다.

토큰 궤적에 대한 알파고 스타일의 몬테카를로 트리 검색이라고 자연스럽게 추측할 수 있습니다. ?

자연스러운 다음 단계처럼 보입니다: 이전에 AlphaCode와 같은 논문은 LLM에서 매우 순진한 무차별 대입 샘플링으로도 경쟁 프로그래밍에서 큰 향상을 얻을 수 있음을 보여주었습니다.

다음 논리적 단계는 토큰 트리를 보다 원칙적인 방식으로 검색하는 것입니다. 이는 특히 코딩이나 수학처럼 정확성을 쉽게 판단할 수 있는 환경에서 의미가 있습니다. -> 실제로 Q*는 수학 문제를 푸는 것 같습니다 ?.

이것이 실제로 의미하는 바는 다음과 같습니다: 질문에 따라 계산량이 달라질 수 있습니다. 지금은 모델을 한 번만 샘플링할 수 있습니다. 위에서 언급한 것처럼 Q*가 실제로 트리 검색이라면 어려운 수학 올림피아드 문제에 10배, 100배, 심지어 1000배의 컴퓨팅을 사용할 수 있을 것입니다.