보통 딥리서치를 하면 다들 결과물 맘에 들어하는거 같습니다.
그게... 인터넷에서 보다많은 소스를 왕창 긁어와서 rag로 돌리면서
가장 적합한 내용을 매칭해서 그런거 아닐까 싶긴하네요.
추론 과정이 1->2->3... ->10 이렇게 10단계로 간다고 했을때,
학습이 덜된 (혹은 희석되어서 잘 기억나지않는) 내용인 경우에 환각으로 정확하지않는 추론을 한번하면,
그때부터 이제 딴나라 얘기로 빠지기 시작하는거 아닐까...싶습니다.
솔직히 벤치마크들은 '어렵지만 짧은 내용' 들을 시험하다보니...
현실은 솔직히 '그렇게까진 어렵진않지만 방대한 히스토리가 잔뜩 녹여진' 내용들이 많다보니.
좀 실제 ai사용성과 벤치마크간의 괴리가 있는듯합니다.
그래서 퍼플렉시티가 자료출처 주석 달아주잖아. 구글도 그거 따라해서 제미니에 출처 달아주기 시작했고
주석 달아주긴 하는데, 주석만 달아주고 말한 내용과 주석링크 속 내용이 불일치할 때가 있음
중간중간 백트래킹하면 될거 같긴한데, 그렇게 하기엔 지금 아웃풋 크기랑 컨텍스트 윈도우 크기로는 좀 어려운게 아닐까