머숨 미러

OpenAI의 획기적인 Q*는 무엇일까요?

1. Q-러닝과 관련이 있는 것 같습니다. (예를 들어, Q*는 벨맨 방정식의 최적 해를 나타냅니다.)
2. 또는 A* 알고리즘과 Q 학습의 조합을 가리키는 것일 수도 있습니다.

토큰 궤적에 대한 알파고 스타일의 몬테카를로 트리 검색이라고 자연스럽게 추측할 수 있습니다. ?

자연스러운 다음 단계처럼 보입니다: 이전에 AlphaCode와 같은 논문은 LLM에서 매우 순진한 무차별 대입 샘플링으로도 경쟁 프로그래밍에서 큰 향상을 얻을 수 있음을 보여주었습니다.

다음 논리적 단계는 토큰 트리를 보다 원칙적인 방식으로 검색하는 것입니다. 이는 특히 코딩이나 수학처럼 정확성을 쉽게 판단할 수 있는 환경에서 의미가 있습니다. -> 실제로 Q*는 수학 문제를 푸는 것 같습니다 ?.

이것이 실제로 의미하는 바는 다음과 같습니다: 질문에 따라 계산량이 달라질 수 있습니다. 지금은 모델을 한 번만 샘플링할 수 있습니다. 위에서 언급한 것처럼 Q*가 실제로 트리 검색이라면 어려운 수학 올림피아드 문제에 10배, 100배, 심지어 1000배의 컴퓨팅을 사용할 수 있을 것입니다.

[📪정보] OpenAI의 Q*는 무엇인지 알아보자

댓글 0

[📪정보] OpenAI의 Q*는 무엇인지 알아보자

댓글 0

다른 게시글

제미니관련 나무위키 ㅈㄴ웃기네 ㅋㅋㅋㅋ

근데 oai도 gemini 성능어떤지 대략적으로알고있을걸?

혹시 데이트앱용 프롬프트있는사람?

특이점 앞에 아직도 국가라는 패러다임에 묶여있다니…

나도 특이점모임만들고싶네

딱 4개월만 잠들었으면좋겠노 ㅋㅋㅋ

Asi님 역노화 기술은 가능할까요?

Gemini도 Q*의 방식을 적용해온듯?

AI 기술의 전파는 한번에 전인류에 풀리진 않을거임

한국이 어쩌니 미국이 어쩌니 씹소리좀 그만하면 안되냐?