retrieval은 GPT 5.5

graph resoning는 Opus 4.6이 우세하다는 게 124.48이 올린 글의 내용임.


여기서 중요하게 등장하는 게 Graphwalk인데

일단 첫째로, Graphwalk에서 미세하게 앞섰다는 건 오히려 엔트로픽에게 악재임


왜냐면 Graphwalk를 더 중요시한다는 건, 여기에 보다 최적화되도록 훈련시켰다는 건데 


24b0d121e09c28a8699fe8b115ef046ec948c3f626



BFS 256k      73.7 vs 76.9

BFS 1m        45.4 vs 41.2

parents 256k 90.1 vs 93.6

parents 1m   58.5 vs 72.0


최적화시켰는데도 BFS 256k랑 Parents 256k 양면에서 5% 미만 차이를 냈다는 건 오히려 모델에 문제가 있다는 거지

반칙을 쓰고도 진 것과 마찬가지잖음.



그리고 두번째로는 모델 설계철학 문제가 있음.

일단 나는 그래프 탐색에서 우위가 있다는 게 오히려 바람직하지 않은 일 같아.


llm이라는 건 뇌의 일부분을 구현한 것에 불과함

GPT에 소뇌기능이 있진 않잖아?

갑자기 배고프다면서 어디론가 뛰쳐나가지는 않지

즉 llm이란 좌뇌 전두엽의 특정기능만 구현한 인공신경망이란 거임

근데 얘한테 그래프 탐색능력까지 기대하는 게 맞을까?


물론 자기가 어느정도 깊이에 있는지, 어느 노드의 작업을 하는지에 대한 기억력은 필요하겠지만

엄청난 수준일 필요는 없다고봄.


일단 자기 일을 제대로 잘 하는 게 최우선이겠지.


다른 능력이 필요하면 다른 모델을 따로 붙이는 게 맞다고 생각함.

마치 cursor가 OpenAI의 임베딩 모델을 통해 코드베이스에 대한 유사도기반 탐색을 지원하는 것처럼 말야.


내 생각에 엔트로픽은 너무 먼 방향으로 가고 있음.



근데 왜 그렇게 가는지는 대충 이해됨.

앤트로픽과 OpenAI의 블로그들을 보면 양 사의 모델 철학이 느껴짐


앤트로픽은 수십, 수백번의 스텝을 밟아가면서 알아서 1000만줄짜리 코드를 작성하는 AI를 만들고 싶어하고

그 때문에 MCP같은 것도 먼저 만들고 opus도 계속 그 방향으로 만드는 것 같음


반면 OpenAI는 현실을 정확히 파악하는 능력을 보다 중시해서 임베딩이라던지 STT, 멀티모달에 좀 더 힘을 쓰고 있고

리트리벌에 좀 더 높은 가중치를 두고 연구를 하는 거겠지.


투자자라던지 사장들이야 알아서 1천만줄 쏟아내는 AI를 더 좋아하겠지만

개발자들이 직접 쓰기엔 gpt5.5가 더 적합하다고 생각함