https://arca.live/b/alpaca/98090125?p=4


KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization


이거 발표한 애들이 치타 연구원들이기는 했는데 진짜 99%라고? 시발 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ