Ml agent을 공부하기 시작한지 얼마 안되서 질문드리고 싶습니다.

우선 미로 벽이 있는 환경에서 플레이어를 쫓아가는 모델을 구현해보고 싶은데 어떤식으로 학습을 진행시키는게 나은가요?

먼저 장애물이 없는 환경에서 플레이어만 쫓아가는 것을 학습시키다가 장애물을 추가하는 식으로 단계적으로 하나요? 아니면 바로 장애물 있는 환경에서 학습을 진행하나요?