오늘 제법 좀 프갤 답네.

124.48_..(salty4732) 2026-05-23 20:39:00 추천 2

나는 gpt5.5가 더 낫다고 생각함 - 프로그래밍 갤러리

retrieval은 GPT 5.5graph resoning는 Opus 4.6이 우세하다는 게 124.48이 올린 글의 내용임.여기서 중요하게 등장하는 게 Graphwalk인데일단 첫째로, Graphwalk에서 미세하게

gall.dcinside.com

https://gall.dcinside.com/board/view/?id=programming&no=2925431&page=1

24b0d121e09c28a8699fe8b115ef046c67f2204c

조금 명확하게 가자면

long-context retrieval

long-context reasoning

이렇게 봐야함.

graph reasoning이라... 뭐 그래프가 없는 것은 아닌데...

평가의 의미가

"이녀석 그래프 탐색을 잘하나?" 가 아니라

"이녀석 추론을 잘하나?"인 거지

그리고 지표도

retrieval

opus 4.6 > gpt 5.5 > opus 4.7

reasoning

opus 4.7 > gpt 5.5 > opus 4.6

이런 거임.

24b0d121e09c28a8699fe8b115ef046ece4dcdf1

우리는 graphwalks를 더 중요하게 생각한다 (팩트의 영역)

그러니까 graphwalks만 보고 이거 중점으로 학습할 거다. (추론의 영역)

뭔가 지금 핀트를 잘못 잡았어.

모델을 만들고 > 퍼블릭 벤치마크를 내놓으니 > 이런 평가가 나왔다.

이렇게 생각해야지

우린 이 평가가 중요하니까 > 이 평가에 가중을 둬서 모델을 개발했는데 > 평가가 이정도 밖에 안나왔다

이렇게 접근하는 것은 좀 잘못됐지....

그런데 진짜 설령 이렇게 접근했더라도

여전히 정량평가가 더 높은 것도 사실이고

"엥 특정 평가 위주로 학습했는데도 결과가 이정도 밖에 안나왔다고? 허~접" 이렇게 말하는 것은

정성평가의 영역이지

정성평가 = 갈드컵

정량평가 = 분석

나는 지금 팩트를 근거로 분석을 하고 싶은 거임.

24b0d121e09c28a8699fe8b115ef046c67f42f48

위에서 한번 말했는데

그래프 탐색 (X)

추론 (O)

24b0d121e09c28a8699fe8b115ef046f5e449998

graphwalks에서 보이는 의미를 파악한다면

다시 생각하게 되는 영역임.

개발자가 스크립트 하나에 코드 라인 뭐 한 10만줄씩 쓰면

어쩌면 MRCR이 더 높은 모델이 개발자 친화적인 모델일지도 모르겠지.

하지만 우리는 프로젝트를 여러 스크립트로 쪼개놓잖아?

그 쪼개진 스크립트에서

개발자의 의도를 파악해서 필요한 스크립트를 찾고

그 스크립트에서 필요한 코드 스니펫을 찾는 기능

이게 클로드가 더 우수하다는 것이고

이게 graphwalks의 의미임.

Here is the graph to operate on: The graph has the following edges: cfcd208495 -> c81e728d9d cfcd208495 -> eccbc87e4b cfcd208495 -> c9f0f895fb cfcd208495 -> c9f0f895fb cfcd208495 -> a87ff679a2 c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> c4ca4238a0 c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> 8f14e45fce c4ca4238a0 -> cfcd208495 c81e728d9d -> c81e728d9d

겉으로 보기에는 그냥 단순 그래프 탐색처럼 보일 수도 있긴 해

사람이었다면 뭐 저거 전부 다 스크랩해서

객체로 만들어서 BFS 돌렸겠지??

그런데 LLM 입장에서는

저게 그래프가 아니라 그냥 임베딩 벡터에 불과하니

임베딩 벡터를 하나씩 읽으면서

query에 해당하는 그래프인가?

-> 맞네. 그럼 이 다음은 어디로 이동해야하지?

-> 그럼 얘는 또 어디있는거지?

이런식으로 그래프를 하나씩 추적해야 한다는 거고

그 추적 능력이 reasoning과 연관되어 있다는 의미.

그래프워크 중점으로 학습할 거라는 게 추측의 영역인 건 맞지만 여기에 동의 못하면 얘기 자체가 안됨. 특정 벤치를 더 중요시 여기겠다는 건 모델 평가에 그 벤치의 결과를 더 많이 반영하겠다는 건데 그럼 결국 그래프워크에 맞게 학습하는 게 되는 거지. 이건 걍 상식인데 이걸 부정하면 어떻게 대화를 하냐 글고 정성평가는 말 그대로 수치화하기 어려운 어떤 성질이나 기준을 갖고 평가하는 걸 말하는 거고 걍 갈드컵이랑은 완전히 다름 나는 저 정량적 평가를 완전히 믿을 수 없단 말을 하고 있는 거임. 아키텍쳐랑 데이터셋을 저 벤치에 맞게 최적화 시켰을 건데(그게 더 중시한다는 말에 담긴 의미니까) 그렇게 해서 나온 수치로 gpt5.5랑 직접 비교하면 gpt가 불리하지 - dc App

에이도비(edit2mkv) 2026-05-23 21:22:00
답글
나는 저 정량적 평가를 완전히 믿을 수 없단 말을 하고 있는 거임. << 정량 평가에 대한 의구심은 합당하지만 사실 정량평가를 보여주었음에도 불구하고 믿지 못하겠다고 하면 대화가 어려운 것도 사실이지 아키텍쳐랑 데이터셋을 저 벤치에 맞게 최적화 시켰을 건데 << 추론의 영역 중소기업도 아니고 앤트로픽이 굳이 벤치 하나만 보고 거기에 최적화해서 맞췄다는 것은 조금 어폐가 있지~ 참고로 그래프워크도 openai 벤치임

124.48_research(salty4732) 2026-05-23 21:26:00
답글
@124.48_research 벤치 하나만 보고 최적화해서 맞췄다는 얘기는 안했음. 그건 네가 상상한 거야. 내 말은 클로드가 openai보다 저기에 더 가중치를 줬을 거라는 거지. 그리고 벤치라는 거 자체가 그걸 성능평가의 기준으로 쓰기 위해서 만드는 거야. 당연히 벤치 기준으로 모델을 만들지. 당연한 거임 이건 따라서 그 그래프워크 기준으로 비교하면 클로드가 더 유리할 수 밖에 없음 클로드는 저기에 더 높은 가중치를 두고 훈련시켰을테니까 네가 쓴 글들이 유의미한 가치를 갖고 있는 건 맞는데 항상 말미에 침소봉대를 끼워넣더라 llm에 대한 실제 성능 테스트를 진짜 제대로 하려면 우리 수준에선 답이 없어. 걍 개인이 각자 알아서 평가하고 자기가 그렇게 평가내린 이유가 뭔지 곰곰히 생각해보는 정도가 끝임 - dc App

에이도비(edit2mkv) 2026-05-23 21:33:00
답글
글 내용이랑 별개로 니가 항상 의심하는게 평가지표 메트릭의 신뢰성인데 그쪽만 전문적으로 파는 그룹도 궁금하면 찾아보셈 그냥 갈드컵처럼 보이는 곳에서 어떻게 유의미한 지표를 찾아서 다수가 동의하게 되는지 찾아보면 흥미로움

익명(211.234) 2026-05-23 21:51:00
답글
@에이도비 llm에 대한 실제 성능 테스트를 진짜 제대로 하려면 우리 수준에선 답이 없어. 걍 개인이 각자 알아서 평가하고 자기가 그렇게 평가내린 이유가 뭔지 곰곰히 생각해보는 정도가 끝임>물론 이것도 공감해.나는 그저 지금 나와있는 데이터가 진실되었다는 전제 하에정확한 근거라 판단하고 분석하려 했던 것뿐그런데 지금 생각해보니 가벼운 마음으로 던진 사견이었는데내가 분석적으로 들이민 것은 아니었나 싶네내가 사과할게나는 두 모델 다 좋다고 생각해내가 클코를 쓰는 이유는 그저 그냥 결제되어있어서 쓰는거뿐코덱스도 훌륭하다고 생각함.

124.48_research(salty4732) 2026-05-23 21:54:00
답글
@ㅇㅇ(211.234) 이공계 분야에서 가장 많이 알려진 결과는 1초를 어떻게 엄밀하게 정의할지만 파고드는 사람들이 있지 문과쪽으론 인간과 지표가 항상 부정확한건 알지만 과거와 비교를 위해 혹은 더 나은 대안이 없기 때문에 그대로 쓰고 가능하면 최신 데이터에 지표를 추가하는 방향으로 가고 있지

익명(211.234) 2026-05-23 21:54:00
답글
@ㅇㅇ(211.234) 나도 평가지표가 정말로 정확할까? 정말로 잘 대변할까? 이런 호기심이 들 때가 있었는데 역시나 이쪽만 전문적으로 파는 그룹이 있었구나 좋은 소스 알려줘서 고마워

124.48_research(salty4732) 2026-05-23 21:55:00
답글
@에이도비 그리고 벤치라는 거 자체가 그걸 성능평가의 기준으로 쓰기 위해서 만드는 거야. 당연히 벤치 기준으로 모델을 만들지. 당연한 거임 이건>물론, 모델의 평가 필요하지.다만 이것을 그래프워크로 했을지 아니면 앤트로픽 내부 지표를 사용했을 지 모르는 것은 사실이지.(이것도 나의 생각에 불과하지만 테크리드 기업이면 내부 평가지표가 있을 거라 추정하거든)어떻게 학습을 했을지오피셜로는 모르니나 역시도 그냥 정량적으로 분석만 하는 거지방금 전에도 말했던 것처럼.가중을 둬서 학습을 했건말건 결국 정량적으로 더 잘나온 것은 분석의 영역.가중을 했을텐데 고작 이정도? 는 사견의 영역.

124.48_research(salty4732) 2026-05-23 21:58:00
답글
@ㅇㅇ(211.234) 정보 ㄱㅅ 근데 바빠서 볼 시간이 날지는 모르겟다. 사실 나는 1억명이 본 것도 내 눈으로 보기 전엔 잘 신뢰하지 않음. 0이 비신뢰고 1이 신뢰면 0.9정도만 신뢰한달까... 이건 나중에 글로 다뤄보고 싶은 주제긴 함. 지식이란 참이라고 정당화된 믿음인가 - dc App

에이도비(edit2mkv) 2026-05-23 22:00:00
답글
@에이도비 내 눈으로 본게 극단적인 아웃라이어라면 어떡하려고 그러면 나만 거짓말쟁이거나 극단주의자가 되버리는걸 그래서 신뢰구간이란걸 분야마다 합의하고 넘어가잖아 예를 들어 p-value를 이공계는 엄청 빡빡하게 잡고 인문계는 좀 널널하게 잡고 니가 관찰한 아웃라이어는 그럴 수 있지 하고 넘어가거나 아니면 특이 케이스가 발생하는 패턴이나 이유를 찾지

익명(211.234) 2026-05-23 22:05:00
답글
@124.48_research 나는 클로드 지피티 둘다 결제하고 있고 커서도 씀 클로드는 작년까지만 해도 제일 많이 썼는데 요즘은 잘 안쓰는 듯 ㅋ 글고 잘 알 수 없으니 공개된 것들만 갖고 얘기해야된다고 생각하는 건 너무 방어적이라고 생각함. 일단 나는 널 공격하거나 설득할 생각이 없고 걍 내 생각을 얘기한 거임. 만약 여기서부턴 평행선이겠다 싶으면 얜 이렇게 생각하는구나. 하고 넘어갈 듯 우리가 이거 갖고 승진경쟁이나 인기싸움을 하는 사이는 아니니까 - dc App

에이도비(edit2mkv) 2026-05-23 22:08:00
답글
@ㅇㅇ(211.234) 아웃라이너 문제가 아님. 합의란 것도 합의한 사람들이나 합의됐다고 생각하는 거지 실제로 그렇지 않은 경우도 많음. 합의되었다고 한다면 신뢰에 꽤 많이 가깝게 되겠지만 그렇다고 100퍼 신뢰하진 않는다는 거야. - dc App

에이도비(edit2mkv) 2026-05-23 22:09:00
답글
@에이도비 내가 말하고 싶은게 그거임 아무도 서로 100% 신뢰하지 않음 그래서 통계적인 방법으로 신뢰도와 신뢰구간을 정한다는거임 내 스스로도 내가 본게 100% 정확하게 본건지 착시인지 알 방법이 없으니까 이건 기계로 측정할때도 마찬가지임 아무리 정밀한 기계라도 100% 맞다고 하는 사람 없고 항상 신뢰도가 얼마인지 정함

익명(211.234) 2026-05-23 22:12:00
답글
@ㅇㅇ(211.234) ㅇㅇ 그렇게 해서 나온 건 웬만하면 믿는 게 맞지. 근데 나는 뭐든 100퍼는 안 믿는다는 거임. 그게 중립적이라 자처하는 3자의 통계라도. - dc App

에이도비(edit2mkv) 2026-05-23 22:20:00
답글

124.48_research(salty4732) 2026-05-23 22:21:00
답글

에이도비(edit2mkv) 2026-05-23 22:26:00

오늘 제법 좀 프갤 답네.

댓글 16

다른 게시글

이번에 유치원 의뢰 들어옴 40만에 유치원반에 각각

다들 예전에 한 플젝들 ai 돌려봄?

시스코, 코덱스를 활용해 AI 보안 시스템을 구축하다.

엔비디아 차세대 AI 서버 한대에 '118억'... 메모리 값만 30억

지표만 따진다면 클로드 코드가 우세함.

게임 개발자도 요즘은 많이 문란해짐

개발자 말고 프로그래머냐고 물어보센

나는 gpt5.5가 더 낫다고 생각함

개발자가 끝났다 안끝났다가 그런말 안중요한 이유.

KBS 다큐 인재전쟁 2부 인공지능과 코리아 딜레마