[📪정보] ★얀르쿤이 큰일해냈음 (LCM)

익명(220.71) 2024-12-29 16:46:00 추천 62

https://www.youtube.com/watch?v=jvdt4jRKxOg

Meta's STUNNING New LLM Architecture is a GAME-CHANGER!

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings in the world of OpenAI, Google, Anth...

www.youtube.com

Meta의 획기적인 새 LLM 아키텍처: LCM (Large Concept Model) 분석

본 브리핑 문서에서는 최근 공개된 Meta의 새로운 대규모 언어 모델(LLM) 아키텍처인 LCM (Large Concept Model)에 대한 핵심 내용과 주요 아이디어를 분석합니다.

기존 LLM은 단어 수준의 토큰을 기반으로 입력을 처리하고 출력을 생성합니다.

반면, 인간은 단어를 넘어 추상적인 개념 수준에서 정보를 분석하고 창의적인 콘텐츠를 생성합니다.

Meta는 이러한 인간의 사고 방식을 모방하여 개념(Concept) 수준에서 작동하는 새로운 LLM 아키텍처인 LCM을 제안합니다.

LCM은 언어와 양식에 구애받지 않고, 텍스트, 이미지, 비디오, 음성 등 다양한 형태의 데이터를 처리할 수 있습니다.

초기 연구 결과, LCM은 요약 및 요약 확장과 같은 작업에서 기존 LLM과 유사하거나 더 나은 성능을 보여주었습니다.

특히, LCM은 제로샷 일반화 능력이 뛰어나 학습하지 않은 언어에도 적용 가능성을 보여주었습니다.

개념 기반 처리: LCM은 단어 대신 개념을 기본 단위로 사용하여 보다 추상적인 수준에서 정보를 처리합니다.

현재 확립된 LMS 기술은 토큰 수준에서 입력을 처리하고 출력을 생성합니다. 이는 단일 단어를 넘어 여러 수준의 추상화에서 정보를 분석하고 창의적인 콘텐츠를 생성하는 인간과는 극명한 대조를 이룹니다. 개념을 기반으로 정보를 계층적으로 구성하기 때문입니다. LCM은 단어 대신 개념을 사용하여 정보를 처리하고 저장합니다. 개념은 단어보다 추상적인 단위이기 때문에, LCM은 LLM보다 더 적은 수의 개념을 사용하여 동일한 양의 정보를 표현할 수 있습니다. 예를 들어, "팀은 운동을 잘하지 못했지만 운동선수가 되고 싶었다."라는 문장은 LCM에서 "목표"와 "장애물"이라는 두 가지 개념으로 표현될 수 있습니다. 이러한 계층적 구조는 LCM이 정보를 더 효율적으로 저장하고 검색할 수 있도록 합니다.

언어 및 양식 불가지론: LCM은 특정 언어나 양식에 제한되지 않고 다양한 유형의 데이터를 처리할 수 있습니다.

"개념은 언어 및 양식에 구애받지 않으며 흐름 내에서 더 높은 수준의 아이디어 또는 행동을 나타냅니다."

계층적 구조: LCM은 입력 및 출력을 계층적 구조로 구성하여 정보를 보다 효율적으로 처리하고 편집할 수 있습니다.

"연구원이 15분짜리 강연을 한다고 상상해 보세요. 일반적으로 그들은 발음할 모든 단어가 적힌 자세한 연설문을 가지고 있지 않습니다... 대신 그들은 전달하고자 하는 상위 수준의 아이디어 흐름을 간략하게 설명합니다."

LCM은 기존 LLM보다 사고과정을 보다 명확히 정리할 수 있습니다.

향상된 컨텍스트 창: LCM은 개념 수준에서 작동하기 때문에 기존 LLM보다 컨텍스트 창을 더 효율적으로 활용할 수 있습니다.

"LCM은 최소한 한 자릿수 더 짧은 시퀀스에서 작동하기 때문에 이러한 문제를 크게 해결합니다."

LCM은 아직 초기 단계이지만 LLM 분야에 큰 영향을 미칠 가능성이 있습니다. Meta의 연구는 LLM 아키텍처의 혁신이 성능 향상의 핵심 요소임을 보여줍니다. 앞으로 LCM이 더 많은 데이터와 더 큰 모델 규모로 확장되면 현재 최고 수준의 LLM 성능에 도달하고 궁극적으로 인간 수준의 지능에 더 가까워질 수 있을 것으로 기대됩니다.

38b3de27e8d73ce864afd19528d527038199af9c6d66

LLM은 토큰단위로 저장하는데 LCM은 개념단위로 저장하고

LLM모델 학습정보는 그냥 공간상에 넓게 분포하는 LCM개념은 계층화되어있음

정보 오가는 과정보면 옛날식 순수 LLM은 스트링예측이 전부인데 LCM은 논리적으로 사고하고 그걸 명시적으로 표시함

그래서 LCM은 내부오류를 잡아내기도 쉽고 추론과정도 훨씬쉽게교육시키고 정렬도 훨씬쉽게 가능함

쉽게말해 얀르쿤이 해냈음

점심밥(yield0917) 2024-12-29 16:47:00
답글

멘토스(gblzvhbddpj2) 2024-12-29 20:32:00
얀버지

익명(merge3772) 2024-12-29 16:48:00
오호 근데 왜 얀르쿤 조용함

익명(dlwo0827) 2024-12-29 16:48:00
답글
얀르쿤이 최근 강연에서 타임라인 조정하긴 했음

익명(spoiler6984) 2024-12-29 17:01:00
아스타리온(attempt1316) 2024-12-29 16:49:00
해당 댓글은 삭제되었습니다.

해당 댓글은 삭제되었습니다. 2026-06-27 09:54:49.175390
답글
연구덜돼서 최적화안된거가 유일한 단점 단점이 무려 없음

익명(220.71) 2024-12-29 16:51:00
결국 단어단위로 저장해야되는거 아님? 그럼 extended LLM: LCM이라고 해야할듯

익명(symbol9756) 2024-12-29 16:50:00
답글
LLM토큰보다 한단계더 추상화된상태로 저장함

익명(220.71) 2024-12-29 16:51:00
답글
추상적인 개념을 어떻게 데이터로 효과적으로 표현할지가 궁금하네

익명(symbol9756) 2024-12-29 16:53:00
답글
비전 AI에 전환점을 제공한 CNN발명가 답게 조금 획기적인 방안인거같아서 기대되네

익명(symbol9756) 2024-12-29 16:56:00
개념 단위? 개념을 어떻게 토큰화했지?

<l>w<l>(popular3429) 2024-12-29 16:51:00
답글
예를들면 "그녀는 많은 어려움을 겪었지만 결국 자신의 꿈을 이루었다." 이면 토큰으로 치면 8개 정도인데, 저 원리대로 이해하면 도전+성취 로 요약해서 끝냄.

ailover(photo7512) 2024-12-29 17:08:00
답글
그럼 의미 손실이 너무 큰데

<l>w<l>(popular3429) 2024-12-29 17:10:00
답글
그래서 트위터 같이 게시물에 긍정 부정 점수를 가중하는것처럼, 숫자로 그런걸 표현할거같음.

ailover(photo7512) 2024-12-29 17:15:00
답글
뼈대는 도전+ 성취이고 디테일은 나중에 필요시 불러오는 식으로하면 진짜 사람이 생각해서 말하는 방식이긴함. 얼굴을 인식하는 방법으로 예를 들면 sphere 대칭성을 가해서 데이터를 저장하고 코랑 이마같은 manifold 디테일은 나중에 붙이는 식으로하면 좀 더 효과적이지 않을까

익명(symbol9756) 2024-12-29 17:22:00
나 샤이 얀르쿤 팬인데 오늘은 그냥 팬 하기로 했다

익명(grey4949) 2024-12-29 16:55:00
익명(grace6) 2024-12-29 16:57:00
얀버지는 씹 수직충이 맞음

우흥(jinhyunge) 2024-12-29 16:59:00
답글
ㄴㄴ 르쿤은 현실주의자임

익명(version5619) 2024-12-30 12:20:00
오 르큰햄 믿는구석이있었던거?

익명(222.99) 2024-12-29 17:00:00
익명(mission1187) 2024-12-29 17:01:00
그래서 저걸로 뭐 실제로 o1 같은거 만들었나? 그냥 입만 턴거 아님?

시간정지용사(thor2018) 2024-12-29 17:02:00
답글
저게 제파머시기 연구중에나온듯?

익명(222.112) 2024-12-29 17:04:00
답글
근데 저거 자체는 누구나 생각하던건데.. 실제로 만들었냐가 중요한거지.

시간정지용사(thor2018) 2024-12-29 17:05:00
답글
ㅇㅇ...... 저걸 어떤 수단으로 구현해냈느냐, 그리고 주목할 만한 성과의 차이가 있느냐가 관건

디시콘발사대(fcbjsjmu1t9f) 2024-12-29 17:34:00
해냈구나 르쿤이형

익명(211.212) 2024-12-29 17:04:00
Borazine(player4081) 2024-12-29 17:05:00
믿고 있었다고!

익명(58.29) 2024-12-29 17:05:00
예시도 못보여줄정도면 말그대로 걍 개념연구수준임

익명(14.6) 2024-12-29 17:08:00
익명(attempt5444) 2024-12-29 17:08:00
쥐엔쟝 얀버지!!

도로시냥(slzpdnjsxnf) 2024-12-29 17:09:00
결과물을 봐야지 아직 해냈다고 보기에는 좀:;;

익명(fumes1032) 2024-12-29 17:10:00
얀버지 억까한 놈들 줄빠따 맞아야겟지..?

퐁칸8(zxvw157) 2024-12-29 17:11:00
그냥 개념 정리만 한거지 만들어서 보여줘야 믿을듯

익명(115.143) 2024-12-29 17:12:00
역시 큰일은 씹덕면상과 렙틸리언이 해낸다 ㄷㄷ - dc App

익명(w3gq0w2syydw) 2024-12-29 17:16:00
궁금한 게 LCM이든 BLT든 저자 목록에 르쿤이가 없는데 왜 르쿤이가 한 게 됨?

익명(218.148) 2024-12-29 17:19:00
답글
알트만이 ChatGPT 만든 줄 아는 놈들이랑 비슷한 거지

익명(1.219) 2024-12-30 10:09:00
똥트만 방빼 범부새꺄 ㅋㅋㅋㅋㅋ

익명(211.197) 2024-12-29 17:22:00
해당 댓글은 삭제되었습니다.

해당 댓글은 삭제되었습니다. 2026-06-27 09:54:49.179067
답글

익명(ancestor7224) 2024-12-29 17:34:00
수직(player5319) 2024-12-29 17:22:00
시발 싹 다 가속시켜

익명(118.223) 2024-12-29 17:23:00
믿고있었다고 얀르쿤!!!!

익명(220.120) 2024-12-29 17:26:00
디시콘발사대(fcbjsjmu1t9f) 2024-12-29 17:32:00
내생각엔 o1 모델이랑 거의 유사한 매커니즘일듯 context distillation에서 핵심 아이디어를 따온거같은데, 거기서 나타나는 현상이 여기서도 재현되는지/아니면 완전 새로운 동작을 하는지 보여주면 좋을텐데

익명(vital7966) 2024-12-29 17:41:00
얀버지 이제야 깨달아요

익명(112.171) 2024-12-29 17:46:00
LLM모델 학습정보는 그냥 공간상에 넓게 분포하는 LCM개념은 계층화되어있음 문장이 이상한데

맥라렌(abcd0926) 2024-12-29 17:46:00
답글
공간상에 넓게 분포하는'데 비해' 라고 써야할듯

익명(116.36) 2024-12-29 19:21:00
초존도초(htr3c654r6ft) 2024-12-29 17:49:00
답글
시발 어깨 뭐여 ㅋㅋㅋㅋㅋㅋ

MoonChild(aowlr2001) 2024-12-29 18:18:00
대 르 쿤

익명(219.248) 2024-12-29 17:52:00
오호 어떤 구조려나 궁금하다

ㅇㅇㅇㅇㅇ(lsh0320jpgpw) 2024-12-29 17:54:00
Weisser_Adler(adler1) 2024-12-29 18:07:00
떠깅(chldmstjr0218) 2024-12-29 18:13:00
익명(220.122) 2024-12-29 18:52:00
대 얀 얀

DNA(hexase1) 2024-12-29 19:08:00
실제로 구동되는걸 보고싶은데

익명(116.36) 2024-12-29 19:20:00
천사다천사(jjtheman999) 2024-12-29 19:55:00
신 르 쿤

03145(laum31) 2024-12-29 20:41:00
여태해온 아가리질 그이상도 그이하도 아님 맨날 논문단계 소형모델단계에서 온갖 아이디어가 성공했다고 ㅈㄹ염병을 쳐떨지만 대형모델에선 결국 그나물에 그밥이었던 사례가 한트럭임 실서비스 보기전까진 1도 기대안됨

ㅇㅋ(ijh2005) 2024-12-29 21:18:00
답글
그렇게나 입털고 여론몰이해댄 v제파 내버려두고 호환도 안되는 개념인 저거로 틀었다는거 자체가 저팀 내부에서도 계속 논문,소형모델단계에서 맴돌다 폐기당하고 방향틀고 있는중이란거임

ㅇㅋ(ijh2005) 2024-12-29 21:22:00
답글
메타가 저런 씹퇴물새끼 왜 내버려두는지 난 잘 모르겠음 그냥 니네 원래하던데로 개쩌는 짱개인재나 등용하지ㅋㅋ

ㅇㅋ(ijh2005) 2024-12-29 21:24:00
답글
진지하게 ai시대 프론티어에 잔류하는걸넘어 선두경쟁 하고싶으면 짱개쪽 천재들 대거 등용하는거 해볼만한 시도긴함 어짜피 현재 미국정권상 중국쪽 시진핑쳐내고 경제 부흥시켜줄거라서 전면에 짱개천재 내세워서 성과내는거 나쁘지않다고 봄

ㅇㅋ(ijh2005) 2024-12-29 21:28:00
익명(valley3800) 2024-12-29 22:26:00
이제 프로브하면 된다

익명(bluewarp) 2024-12-29 22:47:00
5252 얀르 쿤 믿고있었다구!!!

익명(landofooo) 2024-12-29 23:36:00
익명(1vumc1mzh9r7) 2024-12-30 00:51:00
메타 이것저것 흥미로운 발표는 많이하는데 차세대 LLAMA에서 이런 혁신들 좀 적용해서 나오면 좋겠다. 그럼 개같이 빨아줌

익명(121.178) 2024-12-30 03:04:00
올해 몇번 팬티 갈아입기냐

ㅇㅇㅇ(221.151) 2024-12-30 04:14:00
아키텍쳐만 파는 놈들은 모델은 잘 못 만들더라. 잠바도 그렇고 맘바도 그렇고 LCM도 그럴거라고 생각함.. 메타가 뭐 저걸로 제대로 된 모델 만들어서 오픈하기 전까진 아키텍쳐의 진보지. 모델의 진보가 아니야.. 비트넷도 공개했는데 아키텍쳐가 뛰어나도 모델은 영 별로더라.. 학습비용+데이터셋이 사실상 성능을 결정해서..

ASI교총대주교좌석좌주교(7i3eogmeun4l7) 2024-12-30 06:03:00
꼭 사람의 사고 과정을 모방할 필요는 없음. 오히려 사람은 하지 않는 순서로 생각을 해야 창의적 발견이 가능함.

EXERCENS(exercens02) 2024-12-30 09:06:00
역시 메타의 수장, 딥러닝의 선구자, 튜링상 수상자 답다

점심밥(broad6196) 2024-12-30 10:14:00
논문 저자 명단에 르쿤은 없음 Loic Barrault,Paul-Ambroise Duquenne,Maha Elbayad,Artyom Kozhevnikov,Belen Alastruey,Pierre Andrews,Mariano Coria,Guillaume Couairon,Marta R. Costa-jussa,David Dale,Hady Elsahar,

익명(1.219) 2024-12-30 10:16:00
답글
Kevin Heffernan,João Maria Janeiro,Tuan Tran,Christophe Ropers,Eduardo Sánchez,Robin San Roman,Alexandre Mourachko,Safiyyah Saleem,Holger Schwenk

익명(1.219) 2024-12-30 10:16:00
답글
르쿤은 이미 은퇴한 틀딱 명예교수 나이임 일리야처럼 직접 연구할 나이가 아님 힌튼이랑 비슷한 역할임 이제 입만 터는 역할만 남은 사람들한테 연구 성과 기대하는 게 웃김

익명(1.219) 2024-12-30 10:21:00
그래서 그게 뭔데. 이해안감. 다들 이해한거? 걍 호들갑 아니냐

익명(version5619) 2024-12-30 12:22:00
캬 시발 이런걸 보고싶었음 근데 llm가 다 해먹을것같음

익명(114.200) 2024-12-30 21:26:00