같은 모델에 추론하는 스트로베리 넣은것만으로도 성능이 미친듯이 올라갔는데 그런게 하나 더 필요함.
얀르쿤이 llm으론 agi 달성 못한다고 말했던 것 처럼
언어로 표현할 수 없는 실제 세계 데이터를 해석할 수 있는 능력이 생겨야 한다고 본다 (그게 v-jepa일거고)
지금 gpt도 이미지 해석이 가능하지만 별도의 비전모델에서 수행한 데이터를 가져오는걸로 알고있음
보이스가 stt - llm - tts 출력에서 voice - voice 으로 바뀌었듯이 시각 데이터도 데이터 그 자체로 이해해야 함 (어쩌면 블루베리?)
레데리2 학습 떡밥도 그 과정일거라고 생각되고
그럼 이미지 생성도 학습된 구도와 요소만 비벼주는 확률론적 붓질코끼리에서 슈퍼 고흐코끼리로 변하겠지
사실 고졸 국평오 비업계인이라 잘 모름 그냥 그럴 것 같아서 씨부려봤어
섹스
테슬라 생각나네
로봇안에 넣어서 학습시켜야하는 데이터들이있을거같음
GPT 4o가 이미지랑, 언어랑, 오디오. 이 3개 멀티모달임. 여기에서 오디오만 풀어준 게 보이스인거고.... 그래서 이미 GPT 4o가 이미지 변환 모델 안 거치고 바로 입력 받는 걸로 알고 있음.
그래서 4o 시연할 때, 3개 멀티모달인 것도 대단한데, GPT-4 보다 추론 비용도 낮아서 대체 어떻게 한거임??? 이라는 반응이었든데
테슬라 자체가 인공지능 기술임 자율운전 기술이 아님
그보단 수학과 논리적 추론이 가능한게 agi로 가는 길이라고 생각함 수학이 진짜 신기한 도구임 세계를 이해하는데 수학만큼 강력한 도구는 없다고 생각함