나름 프롬프트 캐싱에 효율적인 구조도 짜 놨고, 열심히 만들었는데실제로 써 보니까 소넷 기준 짧은 대화 1라운드에 0.06달러나 나오네어디서 토큰 새고 있는지 집에 가서 빡세게 디버깅해야겠구만...
원래 그렇지 않아?
이론상 프롬프트 캐싱이 효율적으로 동작한다면 1/2~2/3정도 예상하고 있었음
그것보다 압축이 됨...? 인풋 아웃풋 토큰이 있는데?
프롬프트가 제대로 캐싱만 된다면 시스템 프롬프트 부분은 처음에만 청구되니까 ㅇㅇ 그리고 메모리 관리 부분도 여전히 조금 비효율적인 듯