나는 gpt5.5가 더 낫다고 생각함 - 프로그래밍 갤러리

retrieval은 GPT 5.5graph resoning는 Opus 4.6이 우세하다는 게 124.48이 올린 글의 내용임.여기서 중요하게 등장하는 게 Graphwalk인데일단 첫째로, Graphwalk에서 미세하게

gall.dcinside.com


https://gall.dcinside.com/board/view/?id=programming&no=2925431&page=1







24b0d121e09c28a8699fe8b115ef046c67f2204c


>


조금 명확하게 가자면

long-context retrieval

long-context reasoning


이렇게 봐야함.


graph reasoning이라... 뭐 그래프가 없는 것은 아닌데...

평가의 의미가

"이녀석 그래프 탐색을 잘하나?" 가 아니라

"이녀석 추론을 잘하나?"인 거지


그리고 지표도


retrieval

opus 4.6 > gpt 5.5 > opus 4.7


reasoning

opus 4.7 > gpt 5.5 > opus 4.6 


이런 거임.






24b0d121e09c28a8699fe8b115ef046ece4dcdf1

>

우리는 graphwalks를 더 중요하게 생각한다 (팩트의 영역)

그러니까 graphwalks만 보고 이거 중점으로 학습할 거다. (추론의 영역)



뭔가 지금 핀트를 잘못 잡았어.



모델을 만들고 > 퍼블릭 벤치마크를 내놓으니 > 이런 평가가 나왔다.


이렇게 생각해야지



우린 이 평가가 중요하니까 > 이 평가에 가중을 둬서 모델을 개발했는데 > 평가가 이정도 밖에 안나왔다


이렇게 접근하는 것은 좀 잘못됐지....



그런데 진짜 설령 이렇게 접근했더라도

여전히 정량평가가 더 높은 것도 사실이고


"엥 특정 평가 위주로 학습했는데도 결과가 이정도 밖에 안나왔다고? 허~접" 이렇게 말하는 것은

정성평가의 영역이지




정성평가 = 갈드컵

정량평가 = 분석


나는 지금 팩트를 근거로 분석을 하고 싶은 거임.






24b0d121e09c28a8699fe8b115ef046c67f42f48

>

위에서 한번 말했는데

그래프 탐색 (X)

추론 (O)





24b0d121e09c28a8699fe8b115ef046f5e449998

>

graphwalks에서 보이는 의미를 파악한다면

다시 생각하게 되는 영역임.



개발자가 스크립트 하나에 코드 라인 뭐 한 10만줄씩 쓰면

어쩌면 MRCR이 더 높은 모델이 개발자 친화적인 모델일지도 모르겠지.


하지만 우리는 프로젝트를 여러 스크립트로 쪼개놓잖아?

그 쪼개진 스크립트에서

개발자의 의도를 파악해서 필요한 스크립트를 찾고

그 스크립트에서 필요한 코드 스니펫을 찾는 기능


이게 클로드가 더 우수하다는 것이고

이게 graphwalks의 의미임.



Here is the graph to operate on: The graph has the following edges: cfcd208495 -> c81e728d9d cfcd208495 -> eccbc87e4b cfcd208495 -> c9f0f895fb cfcd208495 -> c9f0f895fb cfcd208495 -> a87ff679a2 c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> c4ca4238a0 c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> cfcd208495 c81e728d9d -> c81e728d9d



겉으로 보기에는 그냥 단순 그래프 탐색처럼 보일 수도 있긴 해



사람이었다면 뭐 저거 전부 다 스크랩해서

객체로 만들어서 BFS 돌렸겠지??



그런데 LLM 입장에서는

저게 그래프가 아니라 그냥 임베딩 벡터에 불과하니

임베딩 벡터를 하나씩 읽으면서


query에 해당하는 그래프인가?

-> 맞네. 그럼 이 다음은 어디로 이동해야하지?

-> 그럼 얘는 또 어디있는거지?



이런식으로 그래프를 하나씩 추적해야 한다는 거고

그 추적 능력이 reasoning과 연관되어 있다는 의미.