보상모델 안쓰고 할거임


멀티모달이어야함


상황예측모델을 만들어야함


모델의  입력은 이전상황 출력은 다음상황


이걸 역전파로 학습,


끝,