진화알고리즘은 적합도 점수가 높은 개체를 선택하고


강화학습은 보상점수합이 높은 행동을 선택하잖아요


둘다 점수를 최대화하는걸 선택한다는 점이 같지않나요?


그리고


진화가 적합도 점수가 높은 개체를 선택하면, 그렇게 선택된 개체들은


점수를 최대화하려는 경향을 가지고있는 개체들이 선택되는데


이러면 진화가 강화학습개체를 만들어낸다는 결론이 나는거 같아요