요새 월드 모델이라는 거 많이 보이는데 이거 그냥 비디오 생성모델에 컨디션만 action/state으로 받는거인가요? 방법론 이외에 뭐 특별한 게 잇을까요?