https://www.newsworks.co.kr/news/articleView.html?idxno=824665
[뉴스웍스=문병도 기자] 대규모 언어모델(LLM) 기반 AI 서비스는 지금까지 대부분 고가의 데이터센터 GPU에 의존해 왔다.한국과학기술원(KAIST) 연구진이 비싼 데이터센터 GPU를 덜 쓰고, 주변에 있는 저렴한 GPU를 활용해 AI 서비스를 더 싸게 제공할 수 있는 기술을 개발했다. 한동수 KAIST 전기및전자공학부 교수팀이 개발한 '스펙엣지'는 데이터센터 밖에 널리 보급된 저렴한 소비자급 GPU를 활용해 LLM 인프라 비용을 크게 낮출 수 있는 기술이다. 데이터센터 GPU와 개인 PC나 소형 서버 등에 탑재된 '엣지 GPU'
www.newsworks.co.kr
연구팀은 이를 위해 '추측적 디코딩'이라는 방법을 활용했다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스를 빠르게 생성하면, 데이터센터의 대규모 언어모델이 이를 일괄 검증하는 방식이다. 엣지 GPU는 서버의 응답을 기다리지 않고 계속 단어를 만들어, LLM 추론 속도와 인프라 효율을 동시에 높였다.
데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다.
서버는 여러 엣지 GPU의 검증 요청을 효율적으로 처리하도록 설계돼, GPU 유휴 시간 없이 더 많은 요청을 동시에 처리할 수 있다.
연구는 데이터센터에 집중돼 있던 LLM 연산을 엣지로 분산시켜, AI 서비스의 기반이 되는 인프라 비용은 줄이고 접근성은 높일 수 있는 새로운 가능성을 제시했다.
그니까 내 PC가 서버 보조 GPU가 된다고..?
그러니까 개인의 PC가 프롬프트 분석을 대신해주고 최적화된 프롬프트를 서버에 보내준다는 뜻으로 이해하면 되나
이기술이 빨리퍼져 gpu 가격좀 가라앉았으면..
대충 그리드 컴퓨팅 끼얹나?
이전엔 데이터센터의 리소스에 전적으로 의지했던 것을 단말의 성능에 따라 일부 간단한 기능을 분담한다고 보면 될듯함.
이거 웹하드 그리드 같은거랑 뭐가달라 강제설치하게해서 점유율 빨아먹는 ㅈ같은기술
내 단말의 자원을 타사용자와 공유하는 것이 아니라 내가사용하는 데이터센터의 자원을 내 단말에서 일정량 분담하는 것 같음.
그건 토렌트고 이건 걍 그리드같은거인듯 근데 예전에도 폰이나 시스템에 침입해 비트코인연산용으로 써먹는 좀비 해킹 있었는데 비슷한거일듯
@하늘을 에... 더 단순화하면 온라인 게임할때 게임의 코어는 서버에서 동작하고 화면에 그래픽 디스플레이는 내 pc의 gpu가 하는것. gpu가 좋으면 높은 퀄리티의 그래픽을 경험할 수 있는데, 여기서 그래픽 퀄리티를 속도로 바꾸면 이 기술의 의의를 이해하기 쉬울 듯 함. 이때 내 gpu를 다른 게이머가 사용하지는 않는 것과 같은 이치임.
이게 그리드랑 다를게 뭐냔 나쁜말은 ㄴㄴㄴ - dc App