보통 딥리서치를 하면 다들 결과물 맘에 들어하는거 같습니다.

그게... 인터넷에서 보다많은 소스를 왕창 긁어와서 rag로 돌리면서

가장 적합한 내용을 매칭해서 그런거 아닐까 싶긴하네요.


추론 과정이 1->2->3... ->10 이렇게 10단계로 간다고 했을때,

학습이 덜된 (혹은 희석되어서 잘 기억나지않는) 내용인 경우에 환각으로 정확하지않는 추론을 한번하면,

그때부터 이제 딴나라 얘기로 빠지기 시작하는거 아닐까...싶습니다.



솔직히 벤치마크들은 '어렵지만 짧은 내용' 들을 시험하다보니...

현실은 솔직히 '그렇게까진 어렵진않지만 방대한 히스토리가 잔뜩 녹여진' 내용들이 많다보니.

좀 실제 ai사용성과 벤치마크간의 괴리가 있는듯합니다.