https://www.youtube.com/watch?v=jvdt4jRKxOg

Meta's STUNNING New LLM Architecture is a GAME-CHANGER!

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings in the world of OpenAI, Google, Anth...

www.youtube.com


Meta의 획기적인 새 LLM 아키텍처: LCM (Large Concept Model) 분석

본 브리핑 문서에서는 최근 공개된 Meta의 새로운 대규모 언어 모델(LLM) 아키텍처인 LCM (Large Concept Model)에 대한 핵심 내용과 주요 아이디어를 분석합니다.


기존 LLM은 단어 수준의 토큰을 기반으로 입력을 처리하고 출력을 생성합니다.

반면, 인간은 단어를 넘어 추상적인 개념 수준에서 정보를 분석하고 창의적인 콘텐츠를 생성합니다.

Meta는 이러한 인간의 사고 방식을 모방하여 개념(Concept) 수준에서 작동하는 새로운 LLM 아키텍처인 LCM을 제안합니다.

LCM은 언어와 양식에 구애받지 않고, 텍스트, 이미지, 비디오, 음성 등 다양한 형태의 데이터를 처리할 수 있습니다.

초기 연구 결과, LCM은 요약 및 요약 확장과 같은 작업에서 기존 LLM과 유사하거나 더 나은 성능을 보여주었습니다.

특히, LCM은 제로샷 일반화 능력이 뛰어나 학습하지 않은 언어에도 적용 가능성을 보여주었습니다.


개념 기반 처리: LCM은 단어 대신 개념을 기본 단위로 사용하여 보다 추상적인 수준에서 정보를 처리합니다.

현재 확립된 LMS 기술은 토큰 수준에서 입력을 처리하고 출력을 생성합니다. 이는 단일 단어를 넘어 여러 수준의 추상화에서 정보를 분석하고 창의적인 콘텐츠를 생성하는 인간과는 극명한 대조를 이룹니다. 개념을 기반으로 정보를 계층적으로 구성하기 때문입니다. LCM은 단어 대신 개념을 사용하여 정보를 처리하고 저장합니다. 개념은 단어보다 추상적인 단위이기 때문에, LCM은 LLM보다 더 적은 수의 개념을 사용하여 동일한 양의 정보를 표현할 수 있습니다. 예를 들어, "팀은 운동을 잘하지 못했지만 운동선수가 되고 싶었다."라는 문장은 LCM에서 "목표"와 "장애물"이라는 두 가지 개념으로 표현될 수 있습니다. 이러한 계층적 구조는 LCM이 정보를 더 효율적으로 저장하고 검색할 수 있도록 합니다.


언어 및 양식 불가지론: LCM은 특정 언어나 양식에 제한되지 않고 다양한 유형의 데이터를 처리할 수 있습니다.

"개념은 언어 및 양식에 구애받지 않으며 흐름 내에서 더 높은 수준의 아이디어 또는 행동을 나타냅니다."


계층적 구조: LCM은 입력 및 출력을 계층적 구조로 구성하여 정보를 보다 효율적으로 처리하고 편집할 수 있습니다.

"연구원이 15분짜리 강연을 한다고 상상해 보세요. 일반적으로 그들은 발음할 모든 단어가 적힌 자세한 연설문을 가지고 있지 않습니다... 대신 그들은 전달하고자 하는 상위 수준의 아이디어 흐름을 간략하게 설명합니다."

LCM은 기존 LLM보다 사고과정을 보다 명확히 정리할 수 있습니다.


향상된 컨텍스트 창: LCM은 개념 수준에서 작동하기 때문에 기존 LLM보다 컨텍스트 창을 더 효율적으로 활용할 수 있습니다.

"LCM은 최소한 한 자릿수 더 짧은 시퀀스에서 작동하기 때문에 이러한 문제를 크게 해결합니다."


LCM은 아직 초기 단계이지만 LLM 분야에 큰 영향을 미칠 가능성이 있습니다. Meta의 연구는 LLM 아키텍처의 혁신이 성능 향상의 핵심 요소임을 보여줍니다. 앞으로 LCM이 더 많은 데이터와 더 큰 모델 규모로 확장되면 현재 최고 수준의 LLM 성능에 도달하고 궁극적으로 인간 수준의 지능에 더 가까워질 수 있을 것으로 기대됩니다.







38b3de27e8d73ce864afd19528d527038199af9c6d66


LLM은 토큰단위로 저장하는데 LCM은 개념단위로 저장하고

LLM모델 학습정보는 그냥 공간상에 넓게 분포하는 LCM개념은 계층화되어있음

정보 오가는 과정보면 옛날식 순수 LLM은 스트링예측이 전부인데 LCM은 논리적으로 사고하고 그걸 명시적으로 표시함

그래서 LCM은 내부오류를 잡아내기도 쉽고 추론과정도 훨씬쉽게교육시키고 정렬도 훨씬쉽게 가능함


쉽게말해 얀르쿤이 해냈음