1. 시각적 정보로 언어를 학습하는게 LLM보다 낫다고 하는데 V-JEPA 아키텍처기반 모델은 못내놓는 이유가 뭘까


2. LLM도 멀티모달로 시각적 정보를 학습하는데 LLM 한계론 주장할 떄 왜 이 부분은 무시할까


3. 메타는 왜 수석연구자가 얀르쿤인데 트랜스포머 기반 LLM을 만드는걸까