데이터, 스압) AI를 강화학습시켜 포켓몬 1세대를 해보자

영상업로드용(frodo777) 2023-10-30 10:45:00 추천 372

7cef8174b3866afe3fec85e14f827c732e4ba9d6069ee35d65ea0fdb0e98

바야흐로 AI가 글을 쓰고 그림을 그리는 특이점의 시대

AI는 포켓몬도 클리어할 수 있을 것인가? 한 유튜버가 실험했다

https://youtu.be/DcYLT37ImBY

?si=q1HmKo4oGUK8Hztf

실험에서 AI가 게임과 상호작용하는 방식은 기본적으로 인간과 다를 바 없다. 화면의 이미지를 인식하고, 그런 다음 입력할 버튼을 선택한다.

7cef8174b3866afe3fec85e14f827d739ac15c6b8e1807d6a7eab5912fd9

차이점은, 실험에 사용할 AI에겐 어떠한 배경지식도 없다는 것이다. 포켓몬이란 게임은 어떻게 플레이하는 것이며 목표는 무엇인지, 아무것도 알지 못하는 백지상태이다.

그러나 "십자키를 조작해서 1번도로로 가라."

"꼬렛이 출현하면 몸통박치기를 선택하라."

따위의 직접적인 명령을 입력하지는 않을 것이다.

그 대신, 강화학습(Reinforcement Learning)으로 백지장 AI를 포켓몬 마스터로 만들어나갈 것이다.

강화학습이란?

지도학습, 비지도학습과 함께 머신러닝의 주된 학습 방법이다.

7cef8174b3866afe3fec85e14f8574738a696f1068aeeaaf44f6b71ea4cd

강화학습이 나머지 두 방법과 가장 다른 점은 훈련 데이터가 주어지지 않는다는 것이다. 정답 또한 존재하지 않는다.

강화학습에서 AI는 우선 행동한다. 그 행동에 따라 정해진 보상이 지급되고, AI는 보상을 더 얻기 위한 시도를 거듭하며 전략을 생성한다.

단, 행동을 취하기 위한 행동 목록(방향키, 버튼 등)은 사전에 정의되어야 한다.

강화학습은 행동심리학의 영향을 받은 개념이다. 보상 체계에 따라 포켓몬을 플레이하는 AI를 보며, 어쩌면 우리는 인간의 행동 심리까지 되새길 수 있을지 모른다.

7cef8174b3866afe3fec85e14f8575734d483af8817d22f2dea0bd1a026c

그럼 시작해 보자. 열일 제쳐두고 학습시켜야 할 부분은 이동, 나아가 탐색이다. 맵을 탐색할 줄 모르면 배틀을 박세준급으로 잘해도 의미가 없으니.

앞에서 말했듯, "A에서 B까지 이동하라" 식의 명령은 내릴 수 없다. 강화학습에는 오로지 보상의 개념만 있다. AI가 맵을 탐색하면 보상을 줌으로써 AI의 탐색을 유도해야 한다.

7cef8174b3866afe3fec85e14f857673d4fd0fac90c3b00dc89201b10180

그렇다면 탐색이라는 행위를 어떻게 정의해야 할까?

7cef8174b3866afe3fec85e14f857773f5b39e0ff02326000fec360b18fc00

AI의 플레이 화면을 모조리 녹화하자.

7cef8174b3866afe3fec85e14f857073c07471f069b2eb3d508ddf180fbb

모든 화면을 녹화하고 실시간으로 서로 비교하는 것이다.

비교를 통해 전에 보지 못한 화면이 인식된다면, AI가 새로운 장소에 도달했다고 볼 수 있을 것이다. 이를 "탐색"이라고 정의하고, 보상을 설정한 뒤 실험해 보자.

7cef8174b3866afe3fec85e14f857173ad979eb70a02e38bdc5cb47b18945c08

몇 번의 실험을 거친 결과, 오박사로부터 스타팅을 받기까지의 과정이 눈에 띄게 빨라졌다.

그런데 문제가 발생했다. 스타팅을 받은 AI가 하라는 모험은 안 하고, 태초마을의 특정 장소에 눌러앉은 것이다. 그 원인은 무엇일까?

7cef8174b3866afe3fec85e14f8572731d0ed9803481c0150f5f7149f75906ec

문제의 장소. 움직이는 NPC가 둘 있고, 흔들리는 꽃밭 스프라이트가 있고, 수면에는 물결이 인다.

7cef8174b3866afe3fec85e14f857373a6bd243088ca357c96083f62834f08

바로 이것들이 원인이었다. 움직이는 NPC와 플레이어 캐릭터, 흔들리는 꽃밭, 물결, 이것들이 시시각각 다르게 조합되는 것만으로도 전에 보지 못한 화면이 인식됐고, 탐색의 보상이 지급됐던 것이다.

그렇기에 AI는 귀찮게 나가서 모험을 하는 대신, 효율적으로 태초마을에 눌러앉는 편을 선택했다.

이 문제에 대한 조정은 간단했다.

7cef8174b3866afe3fec85e14f857c7388ee8337423d6419e2e524eb176c60

"전에 보지 못한 화면"의 기준을 빡세게 높이는 것. 이제 화면 상의 사소한 변화로는 보상을 획득하지 못한다. 보상 체계를 수정했으니 처음부터 다시 실험해 보자.

7cef8174b3866afe3fec85e14f857d735047ce3cf31b01c07f8f9ccce117

AI는 태초마을을 나섰고, 8차 실험에 이르러 상록시티에 도착했다.

그러나 또 다른 문제가 관찰되는데...

7cef8174b3866afe3fec85e14f847473b5321d40bb918aa0b45ead721c17

AI가 영 배틀에 소극적인 것이다. 야생 포켓몬을 만나면 무조건 도망만 친다. 이래서야 탐색이 가능해져도 꼭 이겨야 하는 NPC들을 이길 수 없다.

이 역시 보상 체계의 문제로 볼 수 있다. 아까 전의 수정으로 인해, 화면상의 웬만한 변화로는 탐색 보상을 획득할 수 없게 되었다.

7cef8174b3866afe3fec85e14f8475732310c8bf0a5540dec13ed744799e65

즉, 화면상의 변화가 적은 배틀은 아무런 보상을 획득할 수 없는 영양가 없는 행위가 돼버린 것이고, AI는 가장 효율적인 선택지인 "도망치다"만 골랐던 것이다.

문제해결을 위해 새로운 보상을 만들자.

7cef8174b3866afe3fec85e14f847673f548fedb39e94a060dfce6c91e2a

바로 지닌 포켓몬의 레벨 총합이다.

이제 배틀은 더 이상 영양가 없는 행위가 아니다. AI는 배틀로 스타팅을 키울뿐만 아니라, 야생 포켓몬을 잡아 육성시키기 시작한다.

7cef8174b3866afe3fec85e14f84777307a4bcbaabb2540988231af692c8f7

물론 모든 것이 일사천리는 아니었다. AI는 종종 진화 화면에서 B를 눌러, 향후 진행에 유용할 진화를 캔슬시키는 찐빠를 저질렀다.

7cef8174b3866afe3fec85e14f8470730afe070a94e43ef2c76d0b424b68

또한 1번 기술의 PP가 떨어지면 어찌할 줄 몰라 한동안 수렁에 빠지기도 했다.

7cef8174b3866afe3fec85e14f847173db79e29474995af42135a8de7603eb

그러나 AI는 진화가 궁극적으로 도움이 된다는 것을 인지하고, 어느 시점에서부턴가 B버튼을 누르지 않게 되었다.

7cef8174b3866afe3fec85e14f8472738e9019803f79e841219c109a0bef2e

성공적으로 학습이 이루어진 것이다.

7cef8174b3866afe3fec85e14f8473732e197e031719bed6f742516d2551a2

또한 45차 실험에 이르러, 1번 기술의 PP가 0이 된 상황에 한해서 다른 기술을 선택할 수 있게 되었다.

이는 조금 뒤에 벌어질 중대한 사건의 방아쇠가 된다...

7cef8174b3866afe3fec85e14f847c731359a64fe97ead11bc2d6b026ce4

어느덧 60차 실험에 이르러 AI는 상록숲에 진입했다.

지금까지의 학습을 바탕으로 상록숲을 탐색한 결과, AI는 무사히 NPC 배틀에서 이긴 뒤 출구를 찾아냈고

7cef8174b3866afe3fec85e14f847d737af3ddf6213d3f23a017215788b1cf5f

7cef8174b3866afe3fec85e14f8774733be5502b6ddc228418c83d0bb966

65차 실험에서 회색시티에 도착했다.

7cef8174b3866afe3fec85e14f8775734b2327423fef7b069da65cc0455a

그러나 회색시티 체육관 관장 웅이는 강했다. 1번 기술 몸통박치기와 바람일으키기만 난사하는 AI에게, 노말 타입을 반감하는 꼬마돌과 롱스톤은 너무도 거대한 벽이었다.

깨알 상식) 바람일으키기는 1세대에서 노말 타입 기술이었다.

또한 AI는 이상하리만큼 포켓몬 센터에 접근하지 않아서, 웅이에게 털린 뒤 태초마을에서부터 다시 시작하기 일쑤였다. 이는 실험의 효율을 저하시켰다.

방법을 생각해 보자. 지금까지 보상으로 AI를 이끌었듯, 감점으로 패배를 방지할 수는 없을까?

7cef8174b3866afe3fec85e14f877673b93343b5d204fce33120a99b8bad

7cef8174b3866afe3fec85e14f877773acf53e98de983aede64a08f2a594

실패다. 감점이 너무나 무서웠던 AI는 선 채로 죽기를 택했다. 패배 화면이 출력되면, 이어지는 감점을 피하기 위해 그 즉시 조작을 멈추는 것이었다.

다른 방법을 고안해야 했다.

그리하여 이제까지의 학습을 돌아보던 중, 이상한 사건이 일어났던 것이 눈에 띄었다.

7cef8174b3866afe3fec85e14f877073323776cd0c88c2354589ea3f9113

-12점이라는 감점... +만 있고 -는 없는 보상 체계에서 무슨 재앙이 벌어졌길래 이런 점수가 나올 수 있었을까? 블랙박스를 뜯어보자.

7cef8174b3866afe3fec85e14f877173838b024e552e05da94af318592064e

어쩌다 포켓몬 센터에 들어갔던 감점의 주인공

7cef8174b3866afe3fec85e14f87727356e858d76af836b0e6852c67276161

PC 주변을 서성이다가

7cef8174b3866afe3fec85e14f877373e05aefd9704515ddf730c9c2d3294c

구구(Lv13)을 맡겼다.

그랬다. 지금의 보상 체계는 지닌 포켓몬의 레벨 총합.

구구(Lv13)가 지닌 포켓몬에서 박스로 이동하자, AI는 그 즉시 13 점을 잃었다. (탐색 보상으로 +1되어 결과적으로 -12)

감점의 충격은 이후로도 AI가 포켓몬 센터 자체를 기피하게 만들었다. PTSD가 돼버린 것이다.

7cef8174b3866afe3fec85e14f877c7388704814312df49834825ce32f0984

보상 체계를 지닌 포켓몬의 레벨 총합에서 누적 레벨로 변경하자, AI는 다시금 포켓몬 센터에 발을 들이기 시작했다.

7cef8174b3866afe3fec85e14f877d7396b92cafad58ad183563a9d3223dbd69

그러나 웅이와의 혈전은 끝나지 않았다.

7cef8174b3866afe3fec85e14f867473492f3b7729155507cffced567fbd

이전까지 AI는 1번 기술, 몸통박치기와 바람일으키기만으로 쉽게 승리했다. 그것이 가장 효율적인 방법이었다. 그러나 노말 기술을 반감하는 바위 타입은 1번 기술로 뚫을 수 없었다.

과거에 학습으로 만들어진 고정관념이 발목을 붙잡은 셈이다.

실험은 어느덧 100차에 다다랐다.

7cef8174b3866afe3fec85e14f867573e7d9a0fb745d1bb70c2e54370d18

지닌 포켓몬은 딸피의 꼬부기 한 마리. 보통이라면 절대 이길 수 없는 상황

7cef8174b3866afe3fec85e14f867673f4bd7473ab197c537a62f84c0782

그런데 1번 기술, 몸통박치기의 PP가 0이었고

7cef8174b3866afe3fec85e14f867773b3c3094b9be036787777492f1293cb

AI는 대신 거품을 선택하고, 바위/땅 타입 꼬마돌과 롱스톤을 4배 상성으로 잡아냈다.

마침 지닌 포켓몬이 꼬부기뿐이었고,

마침 몸통박치기의 PP가 0인 상황에서,

앞서 1번 기술의 PP가 0인 상황에서의 대처법을 학습했기에 이뤄낸 쾌거.

7cef8174b3866afe3fec85e14f867073513a05f08b27278d7f456f3d57d969

이때의 경험이 이어져, 210차 실험에서는 거품을 몸통박치기 대신 기본 기술로 사용하기까지 한다. 체육관의 상성을 강화 학습으로 습득한 것이다.

7cef8174b3866afe3fec85e14f867173e68bd4c6da2fb5831502f67c0c50e8

다음 목적지는 블루시티로 이어지는 달맞이산

7cef8174b3866afe3fec85e14f867273ff9dfb83ac5cc79060177c74ed59

그곳 포켓몬 센터에는 500원에 잉어킹을 파는 아저씨가 있다.

쓸모없는 포켓몬의 대명사 잉어킹...

7cef8174b3866afe3fec85e14f86737367bd3fa7ca0406a0e20bfd9192f0

그런데 의외로 AI는 매 실험마다 잉어킹을 샀다. 잉어킹(Lv5)을 사는 것은 5레벨만큼의 보상을 얻을 수 있는 아주 편리한 방법이기 때문이다.

사람들이 낮은 가격으로 높은 만족감을 얻을 수 있는 정크 푸드를 선호하는 것과도 비슷하다.

7cef8174b3866afe3fec85e14f867c738373d195b16c0120fea12c8dc785

정크푸드와 정크 포켓몬

7cef8174b3866afe3fec85e14f867d73689f7cab549849439646d5fbc648

야생 포켓몬과의 전투에서 절대 도망치지 않던 AI가, 잉어킹에 한해서는 무조건 도망을 시전하는 새로운 학습의 성과도 관찰되었다.

그러나 달맞이산은 험난했다.

7cef8174b3866afe3fec85e14f8974735545c7d7beaca1e5a5f9f1858326be

7cef8174b3866afe3fec85e14f8975734ec229469f0bdc0041ad96852df0

꼬부기가 거북왕이 되도록 돌아다녀도 돌파될 기미는 보이지 않았다. 실험자는 달맞이산의 단조로운 풍경이 탐색 보상 기준을 만족하지 못한 것을 원인으로 추정했다.

실험자는 여기서 AI의 도전을 일단락하고 지금까지의 학습을 검토해 보기로 한다...

뒷이야기는 기술적인 분석이 주를 이룸. 그만큼 어려운 내용이라 가져올지 모르겠는데... 그중 가장 흥미로웠던 내용은 AI가 난수를 조작해서 원하는 결과를 이끌어내는, 고전게임에서 스피드러너들이 사용하는 테크닉을 깨우쳤다는 것임.

궁금하면 영상으로 직접 보자. 긴 글 읽어줘서 감사

dccon.php?no=62b5df2be09d3ca567b1c5bc12d46b394aa3b1058c6e4d0ca41648b65de3236ecf62ce1d5d644b5499cb86509c6e1c0ba47ccfc0b497b5d8c9ec24c44b60eab744ba9a3445f7e8f3e8dbd3

출처: 닌텐도 갤러리 [원본 보기]

답글
비슷하지. 진짜로 푸킷먼이란 RPG를 난생 처음 하는 사람한테 시켜서 게임 배워나감과 동시에 AI도 익혀나가는게 제일 좋은데 이건 너무 유토피아적인 생각이긴 함... 사람은 푸킷먼 해보면 직관적으로 이게 이거구나 레벨이구나 맵이 이렇구나 어떻게 때려잡는구나 이해 가능한테 깜퓨터는 못하니까 그걸.. 결국은 보상체계로 짜서 어느게 득이고 실인지로 가르치는수밖에 없긴 한데 이건 결국 한계가 있지

ㅇㄱㅇ(211.116) 2023-10-30 13:22:00
답글
아무 배경 지식이 없던게 큼 사람에게도 가이드라인을 주기 위해서 닌텐도는 계속해서 애니메이션을 만드니까

익명(211.197) 2023-10-30 13:38:00
커엽네

익명(172.116) 2023-10-30 11:28:00
뭔가 무섭다 - dc App

익명(gcprjxqjshzp) 2023-10-30 11:31:00
2편가져와

익명(211.118) 2023-10-30 11:31:00
인간이랑 비슷한면이 있네 5살때 캐릭터 죽는 화면 나오기 전에 끈적있는데 감점 안당하려고 다음화면으로 안넘어가는거보면

익명(211.48) 2023-10-30 11:33:00
VTI(cjsfb10) 2023-10-30 11:33:00
와 진짜 사람이 학습하는 방식이랑 비슷하누 남들한테 욕먹고 싶지 않아서 방구석 백수로 사는거랑 비슷하네

익명(106.102) 2023-10-30 11:40:00
답글
거기다 흔들리는 꽃과 호수만 바라보며 모험을 떠나지 않는것은 모니터 화면만 바라보고 사는 롤대남의 삶과 비슷하누

익명(106.102) 2023-10-30 11:41:00
답글
누?

익명(59.26) 2023-10-30 15:53:00
답글
노?

익명(211.234) 2023-10-30 16:38:00
패배한다음 바로 나 안해 시전하는게 개웃기네 ㅋㅋㅋ

이즈나이즈나캥캥(wkskxk12) 2023-10-30 11:42:00
해당 댓글은 삭제되었습니다.

해당 댓글은 삭제되었습니다. 2026-06-25 12:04:53.322294
답글
진짜 개시발 헛소리하지 마라 병신아ㅋㅋ

익명(172.226) 2023-10-30 11:55:00
답글
괜히 아는 거 쳐씨부리고 있네ㅋㅋㅋㅋㅋㅋㅋ

익명(172.226) 2023-10-30 11:56:00
답글
븅신같은소리하지마세요 제발 ㅋㅋ

익명(shan523456) 2023-10-30 12:03:00
답글
머신러닝 알고리즘이 대부분 생물학 메커니즘 배낀거니 당연히 닮았지;;

숫냥이(isyoou) 2023-10-30 12:26:00
답글
누군가 보상체계를 수정한게 아니라 본인 스스로가 보상체계를 바꾸는거지 등신새꺄

ㅇㄱㅇ(211.116) 2023-10-30 12:29:00
답글
븅신

익명(220.89) 2023-10-30 12:41:00
답글
욕만 할 줄 아는 이대남들 혐오스럽다 ㅜㅜ 이 나라의 미래가 어둡다

익명(49.167) 2023-10-30 13:19:00
답글
대자연과 유전자가 신이야!

익명(125.129) 2023-10-30 14:03:00
답글
생명공학 전공자 맞음? 진화를 안다면 생명체의 목적성이라는 얘기는 안 나올텐데. 신기하다는 이유로 신이 존재한다 그러면 환원불가능한 복잡성 들먹이면서 지적설계론 주장하던 개독들이랑 다를 게 뭐임?

익명(58.236) 2023-10-30 15:10:00
Ai 병신 레어캔디 치트 쓰면 되는걸ㅋㅋ

익명(172.226) 2023-10-30 11:55:00
디지몬이 포켓몬을 하는 세상이라니

익명(39.7) 2023-10-30 12:00:00
당장멈춰 개새끼야 그거 계속키우면 큰일나 ㅠㅠ

익명(125.176) 2023-10-30 12:00:00
처음엔 알아서 하게 놔둔다더만 알고리즘짜듯 조건을 다가져다 붙이노

11(125.188) 2023-10-30 12:01:00
답글
판별변수를 넣지 않으면 키보드 누르는것만으로 보상체계를 짜야하는데 변수를 늘려야 하지 않겠노...? 왼쪽 1점 오른쪽 -1점 이러면 왼쪽밖에 더 누르겠냐 이거야

ㅇㄱㅇ(211.116) 2023-10-30 12:29:00
답글
“완성을 위해서는 사람의 개입이 불가피함” ㅇㅋ 알겠어 근데 “알아서 하게 놔둔다”는 말은 거짓인거 맞잖아?

익명(172.226) 2023-10-30 14:48:00
답글
알아서 하게 놔둔다는 말이 왜 거짓이지? 무언가를 먹으면 배가 부르다(보상)는 것을 알려주고 나면 수저로 카레를 떠먹든 포크로 소세지를 찍어먹든 '알아서 한다' 라고 하지 않니? 설계한 보상 체계를 따라 수저든 젓가락이든 포크든 뭐 똥이든 퍼 먹을수 있는 것으로 배에 무언가 때려 넣는 걸 알아서 한다고 하지 않니? 아 이 씨발 댓글 쓰고보니 어그로 끌린거 같아서 좆도 한심하네...니 말이 다 맞다 그런거에나 집중해서 진실 거짓 마음껏 가려라

ㅇㄱㅇ(211.116) 2023-10-30 15:52:00
답글
애초에 전제가 직접 조작을 안 한다는 거였지 아예 방치한다는게 아닌데

익명(211.234) 2023-10-30 16:13:00
개재밋음 ㄹㅇ ㅋㅋ

심쏘(simpso) 2023-10-30 12:02:00
뜬금없이 13점 감점먹고 충격받아서 센터 안가는거 개꼴리노

반갈죽(mfgop) 2023-10-30 12:09:00
강화학습쪽은 주로 연구 안해서 잘 모르는데 강화학습이 아무 배경지식 없이 던지기 좋다기에는 보상체계를 적절하게 수립하는건 사람이 직접 해줘야 하지 않냐?

익명(sanghaijo2) 2023-10-30 12:15:00
답글
그럼 보상체계도 자동으로 설정하는 연구가 있을법한데 그런 연구키워드 있냐? 석박하는 게이 있으면 답좀

익명(sanghaijo2) 2023-10-30 12:15:00
답글
쪽지보냇다

익명(39.7) 2023-10-30 12:30:00
답글
맞음. 강화 학습이 너무 뭉뚱그려져서 그런건데, 강화학습이면서도 동시에 사람들이 변인에 대해 supervise 해야하는거임. 보상체계를 자동으로 설정하기에는 변인이 너무 많음. 데미스 허사비스가 아타리 브레이크아웃으로 강화학습 할때는 변인이 적었기에 가능 한 것. 푸키먼으로 변인 따지고 들려면 단순 방향 외에도 지니고 있는 푸키먼 레벨? 이건 너무 쉬운거임. 기술중에도 똥기술 좋은기술 있는법인데 꼬리흔들기 배운다고 점수 깐다 이런거 구현하려면 모든 기술에다 보상점수 줘야함.

ㅇㄱㅇ(211.116) 2023-10-30 12:33:00
답글
보상점수만 준다고 다면 좋겠지? 위에 구구새끼 병신짓 하는것처럼 대결하는 각 포켓몬마다 유효한거 반감인거에 따라 기술 또 점수 수정해야함 변인이 좆도 많아서 시도하기 어려웠던것임

ㅇㄱㅇ(211.116) 2023-10-30 12:34:00
답글
imitation learning : expert의 policy( 행동 선택체제)를 배낌 Inverse reinforcement learning: expert의 reward funtion을 모방하는 reward funtion을 만듬 Expert는 distillation에서 teacher 느낌으로 잘 학습된 강화학습 모델 혹은 실제 사람

익명(112.150) 2023-10-30 12:36:00
답글
ㅇㅇ 보상디자인 뿐만 아니라 보상 값에도 민감해서 보상디자인은 그 분야 전문가가 직접 해야하고, 보상값은 노가다로 잘 찾아야 함

숫냥이(isyoou) 2023-10-30 13:06:00
답글
사실 목표를 인간이 주관적으로 잡는거니까 근본적으로 어쩔 수 없기도 한가 싶으면서도 시도는 있을 것 같긴한데 키워드 주면 그쪽 논문 한번 찾아보려고

익명(sanghaijo2) 2023-10-30 13:30:00
답글
최근 gpt 나오면서 애매한 지시같은것도 나름 해석할 수 있을텐데 이거랑 접목 시키는 연구도 있을것 같기도 하고

익명(sanghaijo2) 2023-10-30 13:31:00
답글
쪽지 어케보냐?

익명(sanghaijo2) 2023-10-30 13:31:00
답글
GPT2를 사이즈 ㅈㄴ 줄여서 정책 뽑는 데 쓰는 게 decision transformer임

익명(223.39) 2023-10-30 13:41:00
답글
다만 이새끼는 trajectory 넣어서 학습하는 지도학습이라 오프라인 쪽인 게 흠임. 성능도 그렇게 압도적이지는 않고

익명(223.39) 2023-10-30 13:42:00
답글
학부때 지도 비지도 강화 이렇게 셋으로 나눠 가르치던데 이렇게 보상체계 지도해줘야 하는거 생각하면 성격다른 지도학습의 일종으로 볼 수 있을것 같기도 하고

익명(sanghaijo2) 2023-10-30 13:50:00
답글
사실 그 세 개 분류도 고전이고 준지도학습 지도강화학습 비지도강화학습 등등 짬뽕 ㅈㄴ 많음

익명(223.39) 2023-10-30 14:00:00
답글
DT 말고 최근에 Q-Transformer라고 나온게 있긴함 ㅋㅋ
https://qtransformer.github.io/

Knuth(392hvrv47n65) 2023-10-30 18:16:00
-12점이 안타깝노..ㅠ

ㄷㄲㅁ(octopig) 2023-10-30 12:17:00
개노잼이네

익명(14.50) 2023-10-30 12:17:00
와 시발 올해 본 글중에 가장 신선하고 충격적이네 뭔가 아동의 행동이 잘 이해되는것같음

3(39.7) 2023-10-30 12:30:00
해부학,구도에 대한 상식이 없는 ai도 이정도 수준인데 5년 10년뒤에는 ㄷㄷ

익명(210.106) 2023-10-30 12:30:00
감점 직전에 조작자체를 포기하는거 완전 이대남아니노 ㅋㅋ

익명(211.234) 2023-10-30 12:33:00
실시간 중계해서 경마처럼 하면 재밌겠다

ㅇ(210.222) 2023-10-30 12:36:00
이런거 보면 좀 무서움

익명(175.126) 2023-10-30 12:40:00
진짜 한남냄져스럽네 진짜 개역겹다

익명(27.100) 2023-10-30 12:41:00
AI남 이 미친새끼들

익명(118.235) 2023-10-30 12:42:00
돈까스 사주는줄 알고 들어갔더니 부랄을 따버려서 병원은 기피하노 ㅋㅋ

익명(swing2024) 2023-10-30 12:51:00
더줘 더줘 더줘 더줘 더줘 더줘

익명(58.236) 2023-10-30 12:52:00
5살 지능만도 못한게 ai 구나

익명(118.235) 2023-10-30 12:55:00
포켓몬센터에서 크게 데인거 ㄹㅇ 충격이네 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

익명(61.74) 2023-10-30 12:56:00
너가 할려는거 구현하고 싶으면 보상 디자인을 포켓몬 레벨이 아니라 이벤트의 진행으로 바꿔야하지 않나 싶음 이 경우는 이벤트의 진행을 어떻게 감지할지가 문제지만

숫냥이(isyoou) 2023-10-30 12:57:00
답글
게임의 공략이라는 메인 objective가 있고 포켓몬 육성이라는 자잘한 objective가 있으니 보상디자인이 좀 복잡해야 잘 학습되지 않을까 싶다

숫냥이(isyoou) 2023-10-30 12:59:00
포켓몬센터 ptsd가 개웃기네 ㅋㅋㅋㅋㅋㅋㅋㅋ

익명(218.148) 2023-10-30 13:00:00
존나 재밌다

박재윤(ghdfladlekt) 2023-10-30 13:01:00
PTSD ㅋㅋㅋㅋ

깜눈(jjy8097) 2023-10-30 13:04:00
닌하하하하하

익명(223.38) 2023-10-30 13:05:00
상성 학습이 아니라 그냥 미로찾기 반복학습이네

익명(121.151) 2023-10-30 13:08:00
으엌ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ거북왕됐엌ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

익명(121.160) 2023-10-30 13:09:00
채널에 영상 1개 딸랑 올려져 있던데 작성자는 뭐하다가 이런걸 발견한겨

익명(211.63) 2023-10-30 13:09:00
답글
병신새끼답네..저거 영미권 인기영상 10위안에 들었다

포지(oxhook) 2023-10-30 13:21:00
답글
저 영상 내 유튜브에도 계속 뜨던데 저게 이거였노 함 봐야겟다

익명(183.106) 2023-10-30 14:15:00
존나재밌노 ㅋㅋㅋㅋㅋㅋㅋㅋ

자운(ckyo0127) 2023-10-30 13:13:00
이거 재미는 있는데 AI의 한계가 확 느껴지네 ㅇㅇ AI는 스스로는 결코 성장할 수 없는 듯 ㅇㅇ 인간이 신의 입장에서 계속 유전자를 바꿔주는 그런게 있어야 하니 그것도 자극을 통한 쾌락과 고통...

익명(121.182) 2023-10-30 13:18:00
답글
어떤 특정한 행동으로 유도 할 방법이 아직은 보상/점수 체계로 유도하는 정도로밖에 짤 수 없는게 한계이긴 함.. 물론 그걸 잘 이용하면 몇 수 앞까지 미리 계산 쳐서 '적어도' 점수 까먹는 짓은 안 하는 AI는 나올 순 있겠지... 다 뒤져서 점수 까지니까 난죽택 하는 것 처럼.. 다만 까먹을수밖에 없다면 알파고 특이점처럼 이상한 수 두게 되는 플레이도 있는거고

ㅇㄱㅇ(211.116) 2023-10-30 13:25:00
답글
현실에서 진화는 자연에서 생존 및 유전자 전달이라는 목표가 이미 있는데

익명(125.129) 2023-10-30 14:04:00
답글
게임에서는 그 목표가 없으니 사람이 정해주ㅓ야하는것

익명(125.129) 2023-10-30 14:05:00
요약 없나ㅓ

익명(118.38) 2023-10-30 13:33:00
또 그가 그 [짐승의 형상](the image of the beast가 AI?)에게 생명을 줄 권능을 소유하여 그 짐승의 형상이 말도 하게 하고 그 짐승의 형상에게 경배하려 하지 아니하는 자들은 다 죽이게 하더라.(계시록13:15)
https://m.dcinside.com/board/baptistchurch/2567

익명(199.254) 2023-10-30 13:38:00
시발 7살도 판단가능한걸 AI좃밥새끼는 대체 언제 학습하는거임

익명(211.209) 2023-10-30 13:40:00
이런거보면 인간 뇌는 개쩌는거구나

익명(211.209) 2023-10-30 13:40:00
너무재밌다 - dc App

복슬복슬Teemo(handisjax) 2023-10-30 13:51:00
감점이 싫다고 난죽택 하는게 개웃기네 ㅋㅋㅋㅋㅋㅋ

익명(183.106) 2023-10-30 14:11:00
진짜 어릴때 포켓몬 금은 처음했을때랑 비슷한점이 몇개 보여서 웃기노 ㅋㅋㅋ 나도 그냥 부모님이 게임보이랑 금은 포켓몬 사주길래 뭔지도 모르고 했는데 pp 다 떨어지니까 어떻게 해야할지 몰라서 한참 뺑이쳤었는데 ㅋㅋ

익명(x5x4aqggu2c2) 2023-10-30 14:16:00
과거 OpenAI가 하던 짓이네 일론 머스크가 손절. 이후 생성형으로

해축러(125.187) 2023-10-30 14:20:00
한참 멀었네

익명(58.232) 2023-10-30 14:42:00
이런거 보면 진짜 신이 있다고 생각함

익명(49.170) 2023-10-30 14:46:00
답글
기습숭배

익명(58.233) 2023-10-30 18:23:00
음.. 태초에 신의 입장에서 봤을때 인간을 ai 로 보면 되지 않을까 싶네 ^^ 너무 Ai 까지마라 우리가 ai에겐 신적 존재다 나중에 학습되고 발전된 ai가 다른 ai를 개발한다면 상상 그 이상일수 있다 .. - dc App

멸치ㅈ(101.235) 2023-10-30 14:46:00
답글
직관이란게 코드로 구현이 되지 않는한은 너무 먼 훗날의 이야기다

ㅇㄱㅇ(211.116) 2023-10-30 15:54:00
미쳤노

익명(110.76) 2023-10-30 15:02:00
ai 이대남행 ㅋㅋㅋㅋ 질까봐 안함 ㅋㅋㅋㅋ 충격 받고 안함 ㅋㅋㅋㅋㅋ

익명(180.81) 2023-10-30 15:14:00
답글
질깐건 너희 어머니 아니노?

익명(210.97) 2023-10-30 16:31:00
선채로 죽은게 존나 웃기노ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

익명(14.36) 2023-10-30 15:50:00
AI진짜 ㅈㄴ 귀엽네 ㅋㅋ 개귀엽다 - dc App

ㅇㅋ(223.62) 2023-10-30 16:20:00
할렐루야 - 아멘

Hㅅ(182.219) 2023-10-30 17:08:00
AI 씨발 장애인ㅋㅋㅋㅋ 저딴게 뭐 씨발 직업을 대처해? 븅신 ㅋㅋㅋㅋ

익명(124.50) 2023-10-30 19:19:00
익명(61.250) 2023-10-30 20:45:00
ai도 계속된 진화를 하니.. 언젠가는 스스로 기본 시스템을 숙지하게 될듯?

익명(yu250) 2023-10-31 05:24:00
사람하고 학습하는게 똑깉네 처음 본 게임의 시스템 학습하고 효율적으로 플레이하는 방법 알아내는게

익명(182.210) 2023-11-01 15:52:00
개꿀잼이네ㅋㅋㅋㅋ 계속 실험해서 잉어킹 진화하는 것도 보고싶다ㅋㅋ

ㅂㅈㄷㄱ(1.228) 2023-11-01 22:14:00
답글
해당 댓글은 삭제되었습니다.

익명(110.47) 2023-10-30 11:48:38
답글
정책망 최적화 알고리즘 뭐썼는지만 적고가

익명(122.35) 2023-10-29 18:39:52
답글

영상업로드용(frodo777) 2023-10-29 18:46:42
답글
다음에 영상 한번 더볼게요

영상업로드용(frodo777) 2023-10-29 18:46:57
답글
보고왔는데 ppo인가봐 얘도 참 스테디셀러야

익명(122.35) 2023-10-29 18:47:11
답글
PPO 참 대단한 알고리즘 같아 ㅋㅋ TRPO의 계산 복잡도 문제를 간단한 아이디어로 해결했다는 점이 대단하다 느껴짐.. 물론 온라인 강화학습 알고리즘이 정체돼있는 것도 있긴 하지만 그만큼 PPO가 아직까지도 잘 먹히는듯

Knuth(392hvrv47n65) 2023-10-30 18:10:29
답글
ai도 날먹 좋아하는건 사람이랑 똑같구나

익명(turb0b1aze) 2023-10-29 18:48:51
답글

익명(59.25) 2023-10-30 11:09:14
답글
ㅈㄴ재밌네

익명(14.42) 2023-10-29 18:50:55
답글

영상업로드용(frodo777) 2023-10-29 19:15:09
답글
맡겨서 렙 줄어드는 거 ㅋㅋ 재밌다 이런 거

NeruTe(pr0ph3t) 2023-10-29 18:56:54
답글
이런거 ㄹㅇ 개재밌음

익명1(218.149) 2023-10-29 18:58:44
답글
스카이넷님 충성충성충성^^7

공원수호자(parkprotector) 2023-10-29 19:03:40
답글
뒷이야기도 글로 써와 너 지금 영어 못하는 새끼들 무시하는거냐?

몰루(watermelons9763) 2023-10-29 19:04:43
답글
역시 아직 AI는 멀엇구맘

익명2(218.154) 2023-10-29 19:07:09
답글
정말 재밌다 ㅋㅋㅋ - dc App

반드레(4j7l4z15hqqe) 2023-10-29 19:23:01
답글
감점으로 PTSD 오는 거 존나 웃기네 ㅋㅋㅋ

빗소리P(banebaneban) 2023-10-29 19:26:31
답글
ㄹㅇ - dc App

이분(vhfwk) 2023-10-30 10:48:57
답글

익명(59.25) 2023-10-30 11:09:28
답글
12점 감점이라는 꿈도 못꿔본 고통을 겪어 충격과 혼란에 빠진 ai의 몸부림과 표정을 상상하니 좀 껄리네...

익명3(211.177) 2023-10-29 19:27:05
답글

영상업로드용(frodo777) 2023-10-29 22:46:54
답글

익명(106.101) 2023-10-30 10:52:05
답글
존나 재밌으니깐 다음영상 나오면 빨 리 연 재 해 줘

익명4(118.41) 2023-10-29 19:32:22
답글
재밌네ㅋㅋㅋ 나중에 영상나오면 또 연재해줘

익명(218.150) 2023-10-29 19:39:42
답글
오

단코(wnag3850) 2023-10-29 19:45:31
답글
더갖고와!!

익명5(118.34) 2023-10-29 19:54:49
답글
지도에 간곳 늘어나는거나 뱃지 이런것도 조건을 추가해야하나 ㅋㅋㅋ

익명6(124.49) 2023-10-29 20:18:38
답글
ptsd 생기는 거 신기하네

밤맛살(eipi1) 2023-10-29 20:20:31
답글
이거 ㅈㄴ 재밌게 봤는데 - dc App

도토시마이(dotori3714) 2023-10-29 20:23:23
답글
감점될거 무서워서 패배화면에서 안넘어가는게 존나웃기네ㅋㅋㅋㅋㅋ - dc App

snap(leosohn) 2023-10-29 20:45:26
답글
실험의 1차 2차는 무슨 기준으로 나누는 거임?

?(203.228) 2023-10-29 21:09:25
답글
읽기 편하라고 n차 실험이라 적었는데, Agent Version: n의 Agent가 강화학습의 주체를 말함. 그니까 AI 버전 1, 버전 2, 그렇게 이해하면 될듯. 이전에 학습한 내용을 적용해서 강화한 것으로 버전을 구분한거지.

영상업로드용(frodo777) 2023-10-29 22:36:41
답글
꼬인 보상 체계 때문에 뻘짓하는 것도 재밌지만 감점 때문에 포켓몬 센터 기피하거나 배틀 화면 안 넘기는 게 재밌네 ㅋㅋ

MajorasMask(gravit) 2023-10-29 21:18:32
답글

東方project(seihouproject) 2023-10-29 21:24:04
답글
유튜브에서 ai끼리 살아가는 마을 영상도 재미있었는데 이런 것도 재밌네 실험이 완벽해지고 인간의 영역을 넘어서는 날엔 웃지 못하겠지만ㅋㅋ 이런 발전이 게임에 어떻게 적용될지 흥미로움

익명7(58.125) 2023-10-29 21:27:00
답글
재밌당

익명(jo010308) 2023-10-29 21:29:00
답글
ptsd ㅋㅋㅋㅋㅋ

익명(sjh2108) 2023-10-29 21:31:23
답글
2편도써줘

익명8(125.129) 2023-10-29 21:49:20
답글
재밌다 2편도 갖고와주셈

익명(greatshow826) 2023-10-29 22:12:12
답글
와 이게대체 뭐노 ㅋㅋㅋ

익명9(220.127) 2023-10-29 22:21:38
답글
ai로 별게 다 되네 전에 ai가 마크 하는것도 되게 신기했는데

리블리스(wpdldpfvlxl) 2023-10-29 22:22:23
답글
재밌다 ai 왜케 바부바부임

FML(fuckmy1ife) 2023-10-29 22:31:10
답글
흥미롭다

랜덤캐리(randomcarry) 2023-10-29 23:27:21
답글
와

익명10(211.55) 2023-10-29 23:30:36
답글
재밌네

익명11(110.35) 2023-10-29 23:34:09
답글
2편...

익명(tfxp4m09x9ao) 2023-10-30 00:14:51
답글
트켓몬 보는 느낌이노

익명(222.232) 2023-10-30 00:19:28
답글
개재밌네 와 ㅋㅋ

익명(zizonpeach) 2023-10-30 00:41:29
답글
진화를 학습한게 제일 신기하네

익명12(182.230) 2023-10-30 00:47:37
답글
잼네 - dc App

익명13(121.161) 2023-10-30 04:04:09
답글
알버트라고 별명 지어준 ai한테 두 발로 서서 장애물 건너게하던 영상도 재밌었는데 이런것도 시행착오 같은거 보는 맛이 있네

원망고(hanmango97) 2023-10-30 04:40:50
답글
이거 영상보니까 2편 만들기가 힘드네… 애초에 이후 까지 쭉 깬 내용이 없는 듯? - dc App

익명(eastkite99) 2023-10-30 06:12:07
답글
이거 돌린다고 서버비 천달러들었대

익명(218.145) 2023-10-30 09:15:48
답글
ptsdㅋㅋㅋㅋㅋㅋㅋ

익명(enamorus) 2023-10-30 09:52:51
답글
ai게이 감점무서워서 확인안누르는거 보니 회피형 성격이노ㅋㅋㅋ

쿠루룽(mirariko) 2023-10-30 10:23:51
답글

메윈터(sup2rsa1yan) 2023-10-30 10:47:26
답글
어려운 세계네 진자

뱌뱌(rnjsskgp) 2023-10-30 10:49:26
답글
감점이 두려워서 선채로 죽었어 ㅋㅋㅋ 학습이 이렇게 어렵구나

익명(58.72) 2023-10-30 10:49:40
답글
딥러닝은 맨땅에 헤딩을 무한반복하는 건가ㅋㅋㅋ

익명(183.107) 2023-10-30 10:50:11
답글
좆고수 ㅋ

익명(121.176) 2023-10-30 10:51:07
답글
근데 저 값을 수정하거나 조건을 바꾸는 건 사람이 자꾸 손 봐줘야 하나?

익명(211.196) 2023-10-30 10:51:50
답글
ㅇㅇ

익명(39.125) 2023-10-30 10:52:48
답글
으....글쿤

익명(211.196) 2023-10-30 10:53:02
답글
저거 값 수정하면 지금까지 학습한거 날리고 처음부터 다시 학습해야함

익명(211.36) 2023-10-30 11:30:39
답글
걍 순수하게 재밌는데 2편도 이해 안되는상태로 볼거같음

익명(1.235) 2023-10-30 10:52:05
답글
재밌노 ㅋㅋㅋㅋㅋㅋ

익명(211.235) 2023-10-30 10:52:55
답글
감점싫어서 키보드에서 손떼는거 존나귀엽네 ㅋㅋㅋㅋㅋ

익명(112.222) 2023-10-30 10:55:15
답글
AFK

익명(218.156) 2023-10-30 10:56:53
답글
RND 씀? 딱 그 느낌인데

익명(223.39) 2023-10-30 10:55:46
답글
ai새끼 게임 존나 못하네 병신련

익명(218.156) 2023-10-30 10:56:45
답글
ㅋㅋㅋㅋㅋㅋㅋㅋㅋ 포켄몬센터 ptsd ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

ㄴㄴㄴ(211.185) 2023-10-30 10:57:52
답글
??? 머하는 인간이노 ㄷㄷㄷ

익명(36.39) 2023-10-30 10:59:07
답글
이대남 이 미친새끼들

팔베개(sleight775) 2023-10-30 11:00:06
답글
재밋노

익명(121.163) 2023-10-30 11:00:27
답글
보면서 이빨 다 갈렸겠네

익명(114.205) 2023-10-30 11:00:35
답글
이게 개그같은데 진지하게 연구로 보면 석사학위급 논문은 쓰겠는데?

익명(220.79) 2023-10-30 11:01:32
답글
계속 인간이 수정해줄거면 정답 알려주는 학습이랑 뭐가다름

익명(58.127) 2023-10-30 11:03:28
답글
이런새끼들은 그냥 컴퓨터 사용 자체를 막았으면 좋겠다

ㅇㄱㅇ(211.116) 2023-10-30 12:27:40
답글
저런 찐다 ai가 발전해서 스카이넷 되는거임? - dc App

익명(arysyurusiwu) 2023-10-30 11:04:02
답글
실베새끼들 보나마나 글읽기는 커녕 갤이름만 슥 훑고 이대남 어쩌구저쩌구 욕할 줄 알았는데 뭔일이냐?

택치킨(norada4456) 2023-10-30 11:05:03
답글
저걸로 논문 쓰면 개쩔거 같은데 "게임과 AI를 통한 성공에 도달하는 방법" 새로운 자극이 없으면 정체를 하는 이유,옆에 하이 리턴이 있어도 PTSD가 잇으면 접근조차 안하는 이유,유동적인 상황에서 상황을 보다 확실하게 구분하는 법, 가장 쉽게 퀘락을 얻으려고 하는 이유 등등 저 글에 써있는 것만 해도 전부 재미남 ㅋㅋㅋ

익명(211.196) 2023-10-30 11:06:03
답글
그거 씹고전게임 가지고 한 거 5~6년 전부터 지금까지 관련 논문 꽤 있긴 함

익명(223.39) 2023-10-30 11:12:01
답글
흔하디 흔한 주제

익명(220.89) 2023-10-30 11:20:51
답글
쾌락 임마 쾌락... 그리고 허사비스가 이미 했다

ㅇㄱㅇ(211.116) 2023-10-30 12:27:59
답글
이미 선례가 개씹많다

익명(222.109) 2023-10-30 12:32:13
답글
알파고나올때부터 이미 많이 쌓였다

익명(118.40) 2023-10-30 12:39:12
답글
ㅋㅋㅋㅋㅋ afk 개웃기네

익명(223.39) 2023-10-30 11:08:12
답글
정말 오랜만에 보는 개꿀잼 게시물 개추

익명(222.236) 2023-10-30 11:08:20
답글
재밌네

익명(121.66) 2023-10-30 11:09:52
답글
ai ptsd오는거 존나웃기네ㅋㅋㅋㅋㅋㅋㅋ

익명(smrmrpdldi) 2023-10-30 11:10:31
답글
진짜 개재밌네

익명(203.242) 2023-10-30 11:11:02
답글
이런 동물서커스도 ai학습이라고 할 수 있나?

익명(119.202) 2023-10-30 11:11:36
답글

익명(220.125) 2023-10-30 11:11:56
답글
감점이 싫어서 아무것도 안해버리냐ㅋㅋ

익명(119.204) 2023-10-30 11:16:31
답글

Dd(10508mix) 2023-10-30 11:16:31
답글
ai레벨 36찍었노 ㅋㅋㅋ

익명(wqerasfd) 2023-10-30 11:19:21
답글
추천

우리말(eltlwjsdydta) 2023-10-30 11:23:03
답글
인간 세상의 끝이 도래한다 곧 있으면 유튜브 게임 스트리머 이런것도 목소리 합성 + ai가 직접 플레이로 무인 스트리머들 많아지겠다

익명(118.235) 2023-10-30 11:23:04
답글
초딩때 골드버전 엄청많이했는데 엔딩은 1번도 못본듯 항상 어느 지점쯤 가면 접게됨 다양한이유로

익명(121.145) 2023-10-30 11:25:24
답글
결국 AI에게 학습에 대한 적절한 가이드라인을 주는것 자체를 인간이 학습해야한다는건가

바카(bakadesu) 2023-10-30 11:27:56