https://arca.live/b/alpaca/98090125?p=4KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization이거 발표한 애들이 치타 연구원들이기는 했는데 진짜 99%라고? 시발 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
털드만 범부행 ㄱㄱ혓