retrieval은 GPT 5.5graph resoning는 Opus 4.6이 우세하다는 게 124.48이 올린 글의 내용임.여기서 중요하게 등장하는 게 Graphwalk인데일단 첫째로, Graphwalk에서 미세하게
gall.dcinside.com
https://gall.dcinside.com/board/view/?id=programming&no=2925431&page=1
>
조금 명확하게 가자면
long-context retrieval
long-context reasoning
이렇게 봐야함.
graph reasoning이라... 뭐 그래프가 없는 것은 아닌데...
평가의 의미가
"이녀석 그래프 탐색을 잘하나?" 가 아니라
"이녀석 추론을 잘하나?"인 거지
그리고 지표도
retrieval
opus 4.6 > gpt 5.5 > opus 4.7
reasoning
opus 4.7 > gpt 5.5 > opus 4.6
이런 거임.
>
우리는 graphwalks를 더 중요하게 생각한다 (팩트의 영역)
그러니까 graphwalks만 보고 이거 중점으로 학습할 거다. (추론의 영역)
뭔가 지금 핀트를 잘못 잡았어.
모델을 만들고 > 퍼블릭 벤치마크를 내놓으니 > 이런 평가가 나왔다.
이렇게 생각해야지
우린 이 평가가 중요하니까 > 이 평가에 가중을 둬서 모델을 개발했는데 > 평가가 이정도 밖에 안나왔다
이렇게 접근하는 것은 좀 잘못됐지....
그런데 진짜 설령 이렇게 접근했더라도
여전히 정량평가가 더 높은 것도 사실이고
"엥 특정 평가 위주로 학습했는데도 결과가 이정도 밖에 안나왔다고? 허~접" 이렇게 말하는 것은
정성평가의 영역이지
정성평가 = 갈드컵
정량평가 = 분석
나는 지금 팩트를 근거로 분석을 하고 싶은 거임.
>
위에서 한번 말했는데
그래프 탐색 (X)
추론 (O)
>
graphwalks에서 보이는 의미를 파악한다면
다시 생각하게 되는 영역임.
개발자가 스크립트 하나에 코드 라인 뭐 한 10만줄씩 쓰면
어쩌면 MRCR이 더 높은 모델이 개발자 친화적인 모델일지도 모르겠지.
하지만 우리는 프로젝트를 여러 스크립트로 쪼개놓잖아?
그 쪼개진 스크립트에서
개발자의 의도를 파악해서 필요한 스크립트를 찾고
그 스크립트에서 필요한 코드 스니펫을 찾는 기능
이게 클로드가 더 우수하다는 것이고
이게 graphwalks의 의미임.
Here is the graph to operate on: The graph has the following edges: cfcd208495 -> c81e728d9d cfcd208495 -> eccbc87e4b cfcd208495 -> c9f0f895fb cfcd208495 -> c9f0f895fb cfcd208495 -> a87ff679a2 c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> c4ca4238a0 c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> cfcd208495 c81e728d9d -> c81e728d9d
겉으로 보기에는 그냥 단순 그래프 탐색처럼 보일 수도 있긴 해
사람이었다면 뭐 저거 전부 다 스크랩해서
객체로 만들어서 BFS 돌렸겠지??
그런데 LLM 입장에서는
저게 그래프가 아니라 그냥 임베딩 벡터에 불과하니
임베딩 벡터를 하나씩 읽으면서
query에 해당하는 그래프인가?
-> 맞네. 그럼 이 다음은 어디로 이동해야하지?
-> 그럼 얘는 또 어디있는거지?
이런식으로 그래프를 하나씩 추적해야 한다는 거고
그 추적 능력이 reasoning과 연관되어 있다는 의미.
그래프워크 중점으로 학습할 거라는 게 추측의 영역인 건 맞지만 여기에 동의 못하면 얘기 자체가 안됨. 특정 벤치를 더 중요시 여기겠다는 건 모델 평가에 그 벤치의 결과를 더 많이 반영하겠다는 건데 그럼 결국 그래프워크에 맞게 학습하는 게 되는 거지. 이건 걍 상식인데 이걸 부정하면 어떻게 대화를 하냐 글고 정성평가는 말 그대로 수치화하기 어려운 어떤 성질이나 기준을 갖고 평가하는 걸 말하는 거고 걍 갈드컵이랑은 완전히 다름 나는 저 정량적 평가를 완전히 믿을 수 없단 말을 하고 있는 거임. 아키텍쳐랑 데이터셋을 저 벤치에 맞게 최적화 시켰을 건데(그게 더 중시한다는 말에 담긴 의미니까) 그렇게 해서 나온 수치로 gpt5.5랑 직접 비교하면 gpt가 불리하지 - dc App
나는 저 정량적 평가를 완전히 믿을 수 없단 말을 하고 있는 거임. << 정량 평가에 대한 의구심은 합당하지만 사실 정량평가를 보여주었음에도 불구하고 믿지 못하겠다고 하면 대화가 어려운 것도 사실이지 아키텍쳐랑 데이터셋을 저 벤치에 맞게 최적화 시켰을 건데 << 추론의 영역 중소기업도 아니고 앤트로픽이 굳이 벤치 하나만 보고 거기에 최적화해서 맞췄다는 것은 조금 어폐가 있지~ 참고로 그래프워크도 openai 벤치임
@124.48_research 벤치 하나만 보고 최적화해서 맞췄다는 얘기는 안했음. 그건 네가 상상한 거야. 내 말은 클로드가 openai보다 저기에 더 가중치를 줬을 거라는 거지. 그리고 벤치라는 거 자체가 그걸 성능평가의 기준으로 쓰기 위해서 만드는 거야. 당연히 벤치 기준으로 모델을 만들지. 당연한 거임 이건 따라서 그 그래프워크 기준으로 비교하면 클로드가 더 유리할 수 밖에 없음 클로드는 저기에 더 높은 가중치를 두고 훈련시켰을테니까 네가 쓴 글들이 유의미한 가치를 갖고 있는 건 맞는데 항상 말미에 침소봉대를 끼워넣더라 llm에 대한 실제 성능 테스트를 진짜 제대로 하려면 우리 수준에선 답이 없어. 걍 개인이 각자 알아서 평가하고 자기가 그렇게 평가내린 이유가 뭔지 곰곰히 생각해보는 정도가 끝임 - dc App
글 내용이랑 별개로 니가 항상 의심하는게 평가지표 메트릭의 신뢰성인데 그쪽만 전문적으로 파는 그룹도 궁금하면 찾아보셈 그냥 갈드컵처럼 보이는 곳에서 어떻게 유의미한 지표를 찾아서 다수가 동의하게 되는지 찾아보면 흥미로움
@에이도비 llm에 대한 실제 성능 테스트를 진짜 제대로 하려면 우리 수준에선 답이 없어. 걍 개인이 각자 알아서 평가하고 자기가 그렇게 평가내린 이유가 뭔지 곰곰히 생각해보는 정도가 끝임>물론 이것도 공감해.나는 그저 지금 나와있는 데이터가 진실되었다는 전제 하에정확한 근거라 판단하고 분석하려 했던 것뿐그런데 지금 생각해보니 가벼운 마음으로 던진 사견이었는데내가 분석적으로 들이민 것은 아니었나 싶네내가 사과할게나는 두 모델 다 좋다고 생각해내가 클코를 쓰는 이유는 그저 그냥 결제되어있어서 쓰는거뿐코덱스도 훌륭하다고 생각함.
@ㅇㅇ(211.234) 이공계 분야에서 가장 많이 알려진 결과는 1초를 어떻게 엄밀하게 정의할지만 파고드는 사람들이 있지 문과쪽으론 인간과 지표가 항상 부정확한건 알지만 과거와 비교를 위해 혹은 더 나은 대안이 없기 때문에 그대로 쓰고 가능하면 최신 데이터에 지표를 추가하는 방향으로 가고 있지
@ㅇㅇ(211.234) 나도 평가지표가 정말로 정확할까? 정말로 잘 대변할까? 이런 호기심이 들 때가 있었는데 역시나 이쪽만 전문적으로 파는 그룹이 있었구나 좋은 소스 알려줘서 고마워
@에이도비 그리고 벤치라는 거 자체가 그걸 성능평가의 기준으로 쓰기 위해서 만드는 거야. 당연히 벤치 기준으로 모델을 만들지. 당연한 거임 이건>물론, 모델의 평가 필요하지.다만 이것을 그래프워크로 했을지 아니면 앤트로픽 내부 지표를 사용했을 지 모르는 것은 사실이지.(이것도 나의 생각에 불과하지만 테크리드 기업이면 내부 평가지표가 있을 거라 추정하거든)어떻게 학습을 했을지오피셜로는 모르니나 역시도 그냥 정량적으로 분석만 하는 거지방금 전에도 말했던 것처럼.가중을 둬서 학습을 했건말건 결국 정량적으로 더 잘나온 것은 분석의 영역.가중을 했을텐데 고작 이정도? 는 사견의 영역.
@ㅇㅇ(211.234) 정보 ㄱㅅ 근데 바빠서 볼 시간이 날지는 모르겟다. 사실 나는 1억명이 본 것도 내 눈으로 보기 전엔 잘 신뢰하지 않음. 0이 비신뢰고 1이 신뢰면 0.9정도만 신뢰한달까... 이건 나중에 글로 다뤄보고 싶은 주제긴 함. 지식이란 참이라고 정당화된 믿음인가 - dc App
@에이도비 내 눈으로 본게 극단적인 아웃라이어라면 어떡하려고 그러면 나만 거짓말쟁이거나 극단주의자가 되버리는걸 그래서 신뢰구간이란걸 분야마다 합의하고 넘어가잖아 예를 들어 p-value를 이공계는 엄청 빡빡하게 잡고 인문계는 좀 널널하게 잡고 니가 관찰한 아웃라이어는 그럴 수 있지 하고 넘어가거나 아니면 특이 케이스가 발생하는 패턴이나 이유를 찾지
@124.48_research 나는 클로드 지피티 둘다 결제하고 있고 커서도 씀 클로드는 작년까지만 해도 제일 많이 썼는데 요즘은 잘 안쓰는 듯 ㅋ 글고 잘 알 수 없으니 공개된 것들만 갖고 얘기해야된다고 생각하는 건 너무 방어적이라고 생각함. 일단 나는 널 공격하거나 설득할 생각이 없고 걍 내 생각을 얘기한 거임. 만약 여기서부턴 평행선이겠다 싶으면 얜 이렇게 생각하는구나. 하고 넘어갈 듯 우리가 이거 갖고 승진경쟁이나 인기싸움을 하는 사이는 아니니까 - dc App
@ㅇㅇ(211.234) 아웃라이너 문제가 아님. 합의란 것도 합의한 사람들이나 합의됐다고 생각하는 거지 실제로 그렇지 않은 경우도 많음. 합의되었다고 한다면 신뢰에 꽤 많이 가깝게 되겠지만 그렇다고 100퍼 신뢰하진 않는다는 거야. - dc App
@에이도비 내가 말하고 싶은게 그거임 아무도 서로 100% 신뢰하지 않음 그래서 통계적인 방법으로 신뢰도와 신뢰구간을 정한다는거임 내 스스로도 내가 본게 100% 정확하게 본건지 착시인지 알 방법이 없으니까 이건 기계로 측정할때도 마찬가지임 아무리 정밀한 기계라도 100% 맞다고 하는 사람 없고 항상 신뢰도가 얼마인지 정함
@ㅇㅇ(211.234) ㅇㅇ 그렇게 해서 나온 건 웬만하면 믿는 게 맞지. 근데 나는 뭐든 100퍼는 안 믿는다는 거임. 그게 중립적이라 자처하는 3자의 통계라도. - dc App