1. 시각적 정보로 언어를 학습하는게 LLM보다 낫다고 하는데 V-JEPA 아키텍처기반 모델은 못내놓는 이유가 뭘까
2. LLM도 멀티모달로 시각적 정보를 학습하는데 LLM 한계론 주장할 떄 왜 이 부분은 무시할까
3. 메타는 왜 수석연구자가 얀르쿤인데 트랜스포머 기반 LLM을 만드는걸까
1. 시각적 정보로 언어를 학습하는게 LLM보다 낫다고 하는데 V-JEPA 아키텍처기반 모델은 못내놓는 이유가 뭘까
2. LLM도 멀티모달로 시각적 정보를 학습하는데 LLM 한계론 주장할 떄 왜 이 부분은 무시할까
3. 메타는 왜 수석연구자가 얀르쿤인데 트랜스포머 기반 LLM을 만드는걸까
제파는 병신이니까
월드모델이 이론적으로는 정답이지만 물리적 데이터 구득이 어려워서 진전이 없지. 요즘 갑자기 다들 인간형 로봇이나 웨어러블 디바이스 만들기 시작한 이유랑 연관됨