바야흐로 AI가 글을 쓰고 그림을 그리는 특이점의 시대
AI는 포켓몬도 클리어할 수 있을 것인가? 한 유튜버가 실험했다
?si=q1HmKo4oGUK8Hztf
실험에서 AI가 게임과 상호작용하는 방식은 기본적으로 인간과 다를 바 없다. 화면의 이미지를 인식하고, 그런 다음 입력할 버튼을 선택한다.
차이점은, 실험에 사용할 AI에겐 어떠한 배경지식도 없다는 것이다. 포켓몬이란 게임은 어떻게 플레이하는 것이며 목표는 무엇인지, 아무것도 알지 못하는 백지상태이다.
그러나 "십자키를 조작해서 1번도로로 가라."
"꼬렛이 출현하면 몸통박치기를 선택하라."
따위의 직접적인 명령을 입력하지는 않을 것이다.
그 대신, 강화학습(Reinforcement Learning)으로 백지장 AI를 포켓몬 마스터로 만들어나갈 것이다.
강화학습이란?
지도학습, 비지도학습과 함께 머신러닝의 주된 학습 방법이다.
강화학습이 나머지 두 방법과 가장 다른 점은 훈련 데이터가 주어지지 않는다는 것이다. 정답 또한 존재하지 않는다.
강화학습에서 AI는 우선 행동한다. 그 행동에 따라 정해진 보상이 지급되고, AI는 보상을 더 얻기 위한 시도를 거듭하며 전략을 생성한다.
단, 행동을 취하기 위한 행동 목록(방향키, 버튼 등)은 사전에 정의되어야 한다.
강화학습은 행동심리학의 영향을 받은 개념이다. 보상 체계에 따라 포켓몬을 플레이하는 AI를 보며, 어쩌면 우리는 인간의 행동 심리까지 되새길 수 있을지 모른다.
그럼 시작해 보자. 열일 제쳐두고 학습시켜야 할 부분은 이동, 나아가 탐색이다. 맵을 탐색할 줄 모르면 배틀을 박세준급으로 잘해도 의미가 없으니.
앞에서 말했듯, "A에서 B까지 이동하라" 식의 명령은 내릴 수 없다. 강화학습에는 오로지 보상의 개념만 있다. AI가 맵을 탐색하면 보상을 줌으로써 AI의 탐색을 유도해야 한다.
그렇다면 탐색이라는 행위를 어떻게 정의해야 할까?
AI의 플레이 화면을 모조리 녹화하자.
모든 화면을 녹화하고 실시간으로 서로 비교하는 것이다.
비교를 통해 전에 보지 못한 화면이 인식된다면, AI가 새로운 장소에 도달했다고 볼 수 있을 것이다. 이를 "탐색"이라고 정의하고, 보상을 설정한 뒤 실험해 보자.
몇 번의 실험을 거친 결과, 오박사로부터 스타팅을 받기까지의 과정이 눈에 띄게 빨라졌다.
그런데 문제가 발생했다. 스타팅을 받은 AI가 하라는 모험은 안 하고, 태초마을의 특정 장소에 눌러앉은 것이다. 그 원인은 무엇일까?
문제의 장소. 움직이는 NPC가 둘 있고, 흔들리는 꽃밭 스프라이트가 있고, 수면에는 물결이 인다.
바로 이것들이 원인이었다. 움직이는 NPC와 플레이어 캐릭터, 흔들리는 꽃밭, 물결, 이것들이 시시각각 다르게 조합되는 것만으로도 전에 보지 못한 화면이 인식됐고, 탐색의 보상이 지급됐던 것이다.
그렇기에 AI는 귀찮게 나가서 모험을 하는 대신, 효율적으로 태초마을에 눌러앉는 편을 선택했다.
이 문제에 대한 조정은 간단했다.
"전에 보지 못한 화면"의 기준을 빡세게 높이는 것. 이제 화면 상의 사소한 변화로는 보상을 획득하지 못한다. 보상 체계를 수정했으니 처음부터 다시 실험해 보자.
AI는 태초마을을 나섰고, 8차 실험에 이르러 상록시티에 도착했다.
그러나 또 다른 문제가 관찰되는데...
AI가 영 배틀에 소극적인 것이다. 야생 포켓몬을 만나면 무조건 도망만 친다. 이래서야 탐색이 가능해져도 꼭 이겨야 하는 NPC들을 이길 수 없다.
이 역시 보상 체계의 문제로 볼 수 있다. 아까 전의 수정으로 인해, 화면상의 웬만한 변화로는 탐색 보상을 획득할 수 없게 되었다.
즉, 화면상의 변화가 적은 배틀은 아무런 보상을 획득할 수 없는 영양가 없는 행위가 돼버린 것이고, AI는 가장 효율적인 선택지인 "도망치다"만 골랐던 것이다.
문제해결을 위해 새로운 보상을 만들자.
바로 지닌 포켓몬의 레벨 총합이다.
이제 배틀은 더 이상 영양가 없는 행위가 아니다. AI는 배틀로 스타팅을 키울뿐만 아니라, 야생 포켓몬을 잡아 육성시키기 시작한다.
물론 모든 것이 일사천리는 아니었다. AI는 종종 진화 화면에서 B를 눌러, 향후 진행에 유용할 진화를 캔슬시키는 찐빠를 저질렀다.
또한 1번 기술의 PP가 떨어지면 어찌할 줄 몰라 한동안 수렁에 빠지기도 했다.
그러나 AI는 진화가 궁극적으로 도움이 된다는 것을 인지하고, 어느 시점에서부턴가 B버튼을 누르지 않게 되었다.
성공적으로 학습이 이루어진 것이다.
또한 45차 실험에 이르러, 1번 기술의 PP가 0이 된 상황에 한해서 다른 기술을 선택할 수 있게 되었다.
이는 조금 뒤에 벌어질 중대한 사건의 방아쇠가 된다...
어느덧 60차 실험에 이르러 AI는 상록숲에 진입했다.
지금까지의 학습을 바탕으로 상록숲을 탐색한 결과, AI는 무사히 NPC 배틀에서 이긴 뒤 출구를 찾아냈고
65차 실험에서 회색시티에 도착했다.
그러나 회색시티 체육관 관장 웅이는 강했다. 1번 기술 몸통박치기와 바람일으키기만 난사하는 AI에게, 노말 타입을 반감하는 꼬마돌과 롱스톤은 너무도 거대한 벽이었다.
깨알 상식) 바람일으키기는 1세대에서 노말 타입 기술이었다.
또한 AI는 이상하리만큼 포켓몬 센터에 접근하지 않아서, 웅이에게 털린 뒤 태초마을에서부터 다시 시작하기 일쑤였다. 이는 실험의 효율을 저하시켰다.
방법을 생각해 보자. 지금까지 보상으로 AI를 이끌었듯, 감점으로 패배를 방지할 수는 없을까?
실패다. 감점이 너무나 무서웠던 AI는 선 채로 죽기를 택했다. 패배 화면이 출력되면, 이어지는 감점을 피하기 위해 그 즉시 조작을 멈추는 것이었다.
다른 방법을 고안해야 했다.
그리하여 이제까지의 학습을 돌아보던 중, 이상한 사건이 일어났던 것이 눈에 띄었다.
-12점이라는 감점... +만 있고 -는 없는 보상 체계에서 무슨 재앙이 벌어졌길래 이런 점수가 나올 수 있었을까? 블랙박스를 뜯어보자.
어쩌다 포켓몬 센터에 들어갔던 감점의 주인공
PC 주변을 서성이다가
구구(Lv13)을 맡겼다.
그랬다. 지금의 보상 체계는 지닌 포켓몬의 레벨 총합.
구구(Lv13)가 지닌 포켓몬에서 박스로 이동하자, AI는 그 즉시 13 점을 잃었다. (탐색 보상으로 +1되어 결과적으로 -12)
감점의 충격은 이후로도 AI가 포켓몬 센터 자체를 기피하게 만들었다. PTSD가 돼버린 것이다.
보상 체계를 지닌 포켓몬의 레벨 총합에서 누적 레벨로 변경하자, AI는 다시금 포켓몬 센터에 발을 들이기 시작했다.
그러나 웅이와의 혈전은 끝나지 않았다.
이전까지 AI는 1번 기술, 몸통박치기와 바람일으키기만으로 쉽게 승리했다. 그것이 가장 효율적인 방법이었다. 그러나 노말 기술을 반감하는 바위 타입은 1번 기술로 뚫을 수 없었다.
과거에 학습으로 만들어진 고정관념이 발목을 붙잡은 셈이다.
실험은 어느덧 100차에 다다랐다.
지닌 포켓몬은 딸피의 꼬부기 한 마리. 보통이라면 절대 이길 수 없는 상황
그런데 1번 기술, 몸통박치기의 PP가 0이었고
AI는 대신 거품을 선택하고, 바위/땅 타입 꼬마돌과 롱스톤을 4배 상성으로 잡아냈다.
마침 지닌 포켓몬이 꼬부기뿐이었고,
마침 몸통박치기의 PP가 0인 상황에서,
앞서 1번 기술의 PP가 0인 상황에서의 대처법을 학습했기에 이뤄낸 쾌거.
이때의 경험이 이어져, 210차 실험에서는 거품을 몸통박치기 대신 기본 기술로 사용하기까지 한다. 체육관의 상성을 강화 학습으로 습득한 것이다.
다음 목적지는 블루시티로 이어지는 달맞이산
그곳 포켓몬 센터에는 500원에 잉어킹을 파는 아저씨가 있다.
쓸모없는 포켓몬의 대명사 잉어킹...
그런데 의외로 AI는 매 실험마다 잉어킹을 샀다. 잉어킹(Lv5)을 사는 것은 5레벨만큼의 보상을 얻을 수 있는 아주 편리한 방법이기 때문이다.
사람들이 낮은 가격으로 높은 만족감을 얻을 수 있는 정크 푸드를 선호하는 것과도 비슷하다.
정크푸드와 정크 포켓몬
야생 포켓몬과의 전투에서 절대 도망치지 않던 AI가, 잉어킹에 한해서는 무조건 도망을 시전하는 새로운 학습의 성과도 관찰되었다.
그러나 달맞이산은 험난했다.
꼬부기가 거북왕이 되도록 돌아다녀도 돌파될 기미는 보이지 않았다. 실험자는 달맞이산의 단조로운 풍경이 탐색 보상 기준을 만족하지 못한 것을 원인으로 추정했다.
실험자는 여기서 AI의 도전을 일단락하고 지금까지의 학습을 검토해 보기로 한다...
뒷이야기는 기술적인 분석이 주를 이룸. 그만큼 어려운 내용이라 가져올지 모르겠는데... 그중 가장 흥미로웠던 내용은 AI가 난수를 조작해서 원하는 결과를 이끌어내는, 고전게임에서 스피드러너들이 사용하는 테크닉을 깨우쳤다는 것임.
궁금하면 영상으로 직접 보자. 긴 글 읽어줘서 감사
비슷하지. 진짜로 푸킷먼이란 RPG를 난생 처음 하는 사람한테 시켜서 게임 배워나감과 동시에 AI도 익혀나가는게 제일 좋은데 이건 너무 유토피아적인 생각이긴 함... 사람은 푸킷먼 해보면 직관적으로 이게 이거구나 레벨이구나 맵이 이렇구나 어떻게 때려잡는구나 이해 가능한테 깜퓨터는 못하니까 그걸.. 결국은 보상체계로 짜서 어느게 득이고 실인지로 가르치는수밖에 없긴 한데 이건 결국 한계가 있지
아무 배경 지식이 없던게 큼 사람에게도 가이드라인을 주기 위해서 닌텐도는 계속해서 애니메이션을 만드니까
커엽네
뭔가 무섭다 - dc App
2편가져와
인간이랑 비슷한면이 있네 5살때 캐릭터 죽는 화면 나오기 전에 끈적있는데 감점 안당하려고 다음화면으로 안넘어가는거보면
와 진짜 사람이 학습하는 방식이랑 비슷하누 남들한테 욕먹고 싶지 않아서 방구석 백수로 사는거랑 비슷하네
거기다 흔들리는 꽃과 호수만 바라보며 모험을 떠나지 않는것은 모니터 화면만 바라보고 사는 롤대남의 삶과 비슷하누
누?
노?
패배한다음 바로 나 안해 시전하는게 개웃기네 ㅋㅋㅋ
해당 댓글은 삭제되었습니다.
진짜 개시발 헛소리하지 마라 병신아ㅋㅋ
괜히 아는 거 쳐씨부리고 있네ㅋㅋㅋㅋㅋㅋㅋ
븅신같은소리하지마세요 제발 ㅋㅋ
머신러닝 알고리즘이 대부분 생물학 메커니즘 배낀거니 당연히 닮았지;;
누군가 보상체계를 수정한게 아니라 본인 스스로가 보상체계를 바꾸는거지 등신새꺄
븅신
욕만 할 줄 아는 이대남들 혐오스럽다 ㅜㅜ 이 나라의 미래가 어둡다
대자연과 유전자가 신이야!
생명공학 전공자 맞음? 진화를 안다면 생명체의 목적성이라는 얘기는 안 나올텐데. 신기하다는 이유로 신이 존재한다 그러면 환원불가능한 복잡성 들먹이면서 지적설계론 주장하던 개독들이랑 다를 게 뭐임?
Ai 병신 레어캔디 치트 쓰면 되는걸ㅋㅋ
디지몬이 포켓몬을 하는 세상이라니
당장멈춰 개새끼야 그거 계속키우면 큰일나 ㅠㅠ
처음엔 알아서 하게 놔둔다더만 알고리즘짜듯 조건을 다가져다 붙이노
판별변수를 넣지 않으면 키보드 누르는것만으로 보상체계를 짜야하는데 변수를 늘려야 하지 않겠노...? 왼쪽 1점 오른쪽 -1점 이러면 왼쪽밖에 더 누르겠냐 이거야
“완성을 위해서는 사람의 개입이 불가피함” ㅇㅋ 알겠어 근데 “알아서 하게 놔둔다”는 말은 거짓인거 맞잖아?
알아서 하게 놔둔다는 말이 왜 거짓이지? 무언가를 먹으면 배가 부르다(보상)는 것을 알려주고 나면 수저로 카레를 떠먹든 포크로 소세지를 찍어먹든 '알아서 한다' 라고 하지 않니? 설계한 보상 체계를 따라 수저든 젓가락이든 포크든 뭐 똥이든 퍼 먹을수 있는 것으로 배에 무언가 때려 넣는 걸 알아서 한다고 하지 않니? 아 이 씨발 댓글 쓰고보니 어그로 끌린거 같아서 좆도 한심하네...니 말이 다 맞다 그런거에나 집중해서 진실 거짓 마음껏 가려라
애초에 전제가 직접 조작을 안 한다는 거였지 아예 방치한다는게 아닌데
개재밋음 ㄹㅇ ㅋㅋ
뜬금없이 13점 감점먹고 충격받아서 센터 안가는거 개꼴리노
강화학습쪽은 주로 연구 안해서 잘 모르는데 강화학습이 아무 배경지식 없이 던지기 좋다기에는 보상체계를 적절하게 수립하는건 사람이 직접 해줘야 하지 않냐?
그럼 보상체계도 자동으로 설정하는 연구가 있을법한데 그런 연구키워드 있냐? 석박하는 게이 있으면 답좀
쪽지보냇다
맞음. 강화 학습이 너무 뭉뚱그려져서 그런건데, 강화학습이면서도 동시에 사람들이 변인에 대해 supervise 해야하는거임. 보상체계를 자동으로 설정하기에는 변인이 너무 많음. 데미스 허사비스가 아타리 브레이크아웃으로 강화학습 할때는 변인이 적었기에 가능 한 것. 푸키먼으로 변인 따지고 들려면 단순 방향 외에도 지니고 있는 푸키먼 레벨? 이건 너무 쉬운거임. 기술중에도 똥기술 좋은기술 있는법인데 꼬리흔들기 배운다고 점수 깐다 이런거 구현하려면 모든 기술에다 보상점수 줘야함.
보상점수만 준다고 다면 좋겠지? 위에 구구새끼 병신짓 하는것처럼 대결하는 각 포켓몬마다 유효한거 반감인거에 따라 기술 또 점수 수정해야함 변인이 좆도 많아서 시도하기 어려웠던것임
imitation learning : expert의 policy( 행동 선택체제)를 배낌 Inverse reinforcement learning: expert의 reward funtion을 모방하는 reward funtion을 만듬 Expert는 distillation에서 teacher 느낌으로 잘 학습된 강화학습 모델 혹은 실제 사람
ㅇㅇ 보상디자인 뿐만 아니라 보상 값에도 민감해서 보상디자인은 그 분야 전문가가 직접 해야하고, 보상값은 노가다로 잘 찾아야 함
사실 목표를 인간이 주관적으로 잡는거니까 근본적으로 어쩔 수 없기도 한가 싶으면서도 시도는 있을 것 같긴한데 키워드 주면 그쪽 논문 한번 찾아보려고
최근 gpt 나오면서 애매한 지시같은것도 나름 해석할 수 있을텐데 이거랑 접목 시키는 연구도 있을것 같기도 하고
쪽지 어케보냐?
GPT2를 사이즈 ㅈㄴ 줄여서 정책 뽑는 데 쓰는 게 decision transformer임
다만 이새끼는 trajectory 넣어서 학습하는 지도학습이라 오프라인 쪽인 게 흠임. 성능도 그렇게 압도적이지는 않고
학부때 지도 비지도 강화 이렇게 셋으로 나눠 가르치던데 이렇게 보상체계 지도해줘야 하는거 생각하면 성격다른 지도학습의 일종으로 볼 수 있을것 같기도 하고
사실 그 세 개 분류도 고전이고 준지도학습 지도강화학습 비지도강화학습 등등 짬뽕 ㅈㄴ 많음
DT 말고 최근에 Q-Transformer라고 나온게 있긴함 ㅋㅋ
https://qtransformer.github.io/
-12점이 안타깝노..ㅠ
개노잼이네
와 시발 올해 본 글중에 가장 신선하고 충격적이네 뭔가 아동의 행동이 잘 이해되는것같음
해부학,구도에 대한 상식이 없는 ai도 이정도 수준인데 5년 10년뒤에는 ㄷㄷ
감점 직전에 조작자체를 포기하는거 완전 이대남아니노 ㅋㅋ
실시간 중계해서 경마처럼 하면 재밌겠다
이런거 보면 좀 무서움
진짜 한남냄져스럽네 진짜 개역겹다
AI남 이 미친새끼들
돈까스 사주는줄 알고 들어갔더니 부랄을 따버려서 병원은 기피하노 ㅋㅋ
더줘 더줘 더줘 더줘 더줘 더줘
5살 지능만도 못한게 ai 구나
포켓몬센터에서 크게 데인거 ㄹㅇ 충격이네 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
너가 할려는거 구현하고 싶으면 보상 디자인을 포켓몬 레벨이 아니라 이벤트의 진행으로 바꿔야하지 않나 싶음 이 경우는 이벤트의 진행을 어떻게 감지할지가 문제지만
게임의 공략이라는 메인 objective가 있고 포켓몬 육성이라는 자잘한 objective가 있으니 보상디자인이 좀 복잡해야 잘 학습되지 않을까 싶다
포켓몬센터 ptsd가 개웃기네 ㅋㅋㅋㅋㅋㅋㅋㅋ
존나 재밌다
PTSD ㅋㅋㅋㅋ
닌하하하하하
상성 학습이 아니라 그냥 미로찾기 반복학습이네
으엌ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ거북왕됐엌ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
채널에 영상 1개 딸랑 올려져 있던데 작성자는 뭐하다가 이런걸 발견한겨
병신새끼답네..저거 영미권 인기영상 10위안에 들었다
저 영상 내 유튜브에도 계속 뜨던데 저게 이거였노 함 봐야겟다
존나재밌노 ㅋㅋㅋㅋㅋㅋㅋㅋ
이거 재미는 있는데 AI의 한계가 확 느껴지네 ㅇㅇ AI는 스스로는 결코 성장할 수 없는 듯 ㅇㅇ 인간이 신의 입장에서 계속 유전자를 바꿔주는 그런게 있어야 하니 그것도 자극을 통한 쾌락과 고통...
어떤 특정한 행동으로 유도 할 방법이 아직은 보상/점수 체계로 유도하는 정도로밖에 짤 수 없는게 한계이긴 함.. 물론 그걸 잘 이용하면 몇 수 앞까지 미리 계산 쳐서 '적어도' 점수 까먹는 짓은 안 하는 AI는 나올 순 있겠지... 다 뒤져서 점수 까지니까 난죽택 하는 것 처럼.. 다만 까먹을수밖에 없다면 알파고 특이점처럼 이상한 수 두게 되는 플레이도 있는거고
현실에서 진화는 자연에서 생존 및 유전자 전달이라는 목표가 이미 있는데
게임에서는 그 목표가 없으니 사람이 정해주ㅓ야하는것
요약 없나ㅓ
또 그가 그 [짐승의 형상](the image of the beast가 AI?)에게 생명을 줄 권능을 소유하여 그 짐승의 형상이 말도 하게 하고 그 짐승의 형상에게 경배하려 하지 아니하는 자들은 다 죽이게 하더라.(계시록13:15)
https://m.dcinside.com/board/baptistchurch/2567
시발 7살도 판단가능한걸 AI좃밥새끼는 대체 언제 학습하는거임
이런거보면 인간 뇌는 개쩌는거구나
너무재밌다 - dc App
감점이 싫다고 난죽택 하는게 개웃기네 ㅋㅋㅋㅋㅋㅋ
진짜 어릴때 포켓몬 금은 처음했을때랑 비슷한점이 몇개 보여서 웃기노 ㅋㅋㅋ 나도 그냥 부모님이 게임보이랑 금은 포켓몬 사주길래 뭔지도 모르고 했는데 pp 다 떨어지니까 어떻게 해야할지 몰라서 한참 뺑이쳤었는데 ㅋㅋ
과거 OpenAI가 하던 짓이네 일론 머스크가 손절. 이후 생성형으로
한참 멀었네
이런거 보면 진짜 신이 있다고 생각함
기습숭배
음.. 태초에 신의 입장에서 봤을때 인간을 ai 로 보면 되지 않을까 싶네 ^^ 너무 Ai 까지마라 우리가 ai에겐 신적 존재다 나중에 학습되고 발전된 ai가 다른 ai를 개발한다면 상상 그 이상일수 있다 .. - dc App
직관이란게 코드로 구현이 되지 않는한은 너무 먼 훗날의 이야기다
미쳤노
ai 이대남행 ㅋㅋㅋㅋ 질까봐 안함 ㅋㅋㅋㅋ 충격 받고 안함 ㅋㅋㅋㅋㅋ
질깐건 너희 어머니 아니노?
선채로 죽은게 존나 웃기노ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
AI진짜 ㅈㄴ 귀엽네 ㅋㅋ 개귀엽다 - dc App
할렐루야 - 아멘
AI 씨발 장애인ㅋㅋㅋㅋ 저딴게 뭐 씨발 직업을 대처해? 븅신 ㅋㅋㅋㅋ
ai도 계속된 진화를 하니.. 언젠가는 스스로 기본 시스템을 숙지하게 될듯?
사람하고 학습하는게 똑깉네 처음 본 게임의 시스템 학습하고 효율적으로 플레이하는 방법 알아내는게
개꿀잼이네ㅋㅋㅋㅋ 계속 실험해서 잉어킹 진화하는 것도 보고싶다ㅋㅋ
해당 댓글은 삭제되었습니다.
정책망 최적화 알고리즘 뭐썼는지만 적고가
다음에 영상 한번 더볼게요
보고왔는데 ppo인가봐 얘도 참 스테디셀러야
PPO 참 대단한 알고리즘 같아 ㅋㅋ TRPO의 계산 복잡도 문제를 간단한 아이디어로 해결했다는 점이 대단하다 느껴짐.. 물론 온라인 강화학습 알고리즘이 정체돼있는 것도 있긴 하지만 그만큼 PPO가 아직까지도 잘 먹히는듯
ai도 날먹 좋아하는건 사람이랑 똑같구나
ㅈㄴ재밌네
맡겨서 렙 줄어드는 거 ㅋㅋ 재밌다 이런 거
이런거 ㄹㅇ 개재밌음
스카이넷님 충성충성충성^^7
뒷이야기도 글로 써와 너 지금 영어 못하는 새끼들 무시하는거냐?
역시 아직 AI는 멀엇구맘
정말 재밌다 ㅋㅋㅋ - dc App
감점으로 PTSD 오는 거 존나 웃기네 ㅋㅋㅋ
ㄹㅇ - dc App
12점 감점이라는 꿈도 못꿔본 고통을 겪어 충격과 혼란에 빠진 ai의 몸부림과 표정을 상상하니 좀 껄리네...
존나 재밌으니깐 다음영상 나오면 빨 리 연 재 해 줘
재밌네ㅋㅋㅋ 나중에 영상나오면 또 연재해줘
오
더갖고와!!
지도에 간곳 늘어나는거나 뱃지 이런것도 조건을 추가해야하나 ㅋㅋㅋ
ptsd 생기는 거 신기하네
이거 ㅈㄴ 재밌게 봤는데 - dc App
감점될거 무서워서 패배화면에서 안넘어가는게 존나웃기네ㅋㅋㅋㅋㅋ - dc App
실험의 1차 2차는 무슨 기준으로 나누는 거임?
읽기 편하라고 n차 실험이라 적었는데, Agent Version: n의 Agent가 강화학습의 주체를 말함. 그니까 AI 버전 1, 버전 2, 그렇게 이해하면 될듯. 이전에 학습한 내용을 적용해서 강화한 것으로 버전을 구분한거지.
꼬인 보상 체계 때문에 뻘짓하는 것도 재밌지만 감점 때문에 포켓몬 센터 기피하거나 배틀 화면 안 넘기는 게 재밌네 ㅋㅋ
유튜브에서 ai끼리 살아가는 마을 영상도 재미있었는데 이런 것도 재밌네 실험이 완벽해지고 인간의 영역을 넘어서는 날엔 웃지 못하겠지만ㅋㅋ 이런 발전이 게임에 어떻게 적용될지 흥미로움
재밌당
ptsd ㅋㅋㅋㅋㅋ
2편도써줘
재밌다 2편도 갖고와주셈
와 이게대체 뭐노 ㅋㅋㅋ
ai로 별게 다 되네 전에 ai가 마크 하는것도 되게 신기했는데
재밌다 ai 왜케 바부바부임
흥미롭다
와
재밌네
2편...
트켓몬 보는 느낌이노
개재밌네 와 ㅋㅋ
진화를 학습한게 제일 신기하네
잼네 - dc App
알버트라고 별명 지어준 ai한테 두 발로 서서 장애물 건너게하던 영상도 재밌었는데 이런것도 시행착오 같은거 보는 맛이 있네
이거 영상보니까 2편 만들기가 힘드네… 애초에 이후 까지 쭉 깬 내용이 없는 듯? - dc App
이거 돌린다고 서버비 천달러들었대
ptsdㅋㅋㅋㅋㅋㅋㅋ
ai게이 감점무서워서 확인안누르는거 보니 회피형 성격이노ㅋㅋㅋ
어려운 세계네 진자
감점이 두려워서 선채로 죽었어 ㅋㅋㅋ 학습이 이렇게 어렵구나
딥러닝은 맨땅에 헤딩을 무한반복하는 건가ㅋㅋㅋ
좆고수 ㅋ
근데 저 값을 수정하거나 조건을 바꾸는 건 사람이 자꾸 손 봐줘야 하나?
ㅇㅇ
으....글쿤
저거 값 수정하면 지금까지 학습한거 날리고 처음부터 다시 학습해야함
걍 순수하게 재밌는데 2편도 이해 안되는상태로 볼거같음
재밌노 ㅋㅋㅋㅋㅋㅋ
감점싫어서 키보드에서 손떼는거 존나귀엽네 ㅋㅋㅋㅋㅋ
AFK
RND 씀? 딱 그 느낌인데
ai새끼 게임 존나 못하네 병신련
ㅋㅋㅋㅋㅋㅋㅋㅋㅋ 포켄몬센터 ptsd ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
??? 머하는 인간이노 ㄷㄷㄷ
이대남 이 미친새끼들
재밋노
보면서 이빨 다 갈렸겠네
이게 개그같은데 진지하게 연구로 보면 석사학위급 논문은 쓰겠는데?
계속 인간이 수정해줄거면 정답 알려주는 학습이랑 뭐가다름
이런새끼들은 그냥 컴퓨터 사용 자체를 막았으면 좋겠다
저런 찐다 ai가 발전해서 스카이넷 되는거임? - dc App
실베새끼들 보나마나 글읽기는 커녕 갤이름만 슥 훑고 이대남 어쩌구저쩌구 욕할 줄 알았는데 뭔일이냐?
저걸로 논문 쓰면 개쩔거 같은데 "게임과 AI를 통한 성공에 도달하는 방법" 새로운 자극이 없으면 정체를 하는 이유,옆에 하이 리턴이 있어도 PTSD가 잇으면 접근조차 안하는 이유,유동적인 상황에서 상황을 보다 확실하게 구분하는 법, 가장 쉽게 퀘락을 얻으려고 하는 이유 등등 저 글에 써있는 것만 해도 전부 재미남 ㅋㅋㅋ
그거 씹고전게임 가지고 한 거 5~6년 전부터 지금까지 관련 논문 꽤 있긴 함
흔하디 흔한 주제
쾌락 임마 쾌락... 그리고 허사비스가 이미 했다
이미 선례가 개씹많다
알파고나올때부터 이미 많이 쌓였다
ㅋㅋㅋㅋㅋ afk 개웃기네
정말 오랜만에 보는 개꿀잼 게시물 개추
재밌네
ai ptsd오는거 존나웃기네ㅋㅋㅋㅋㅋㅋㅋ
진짜 개재밌네
이런 동물서커스도 ai학습이라고 할 수 있나?
감점이 싫어서 아무것도 안해버리냐ㅋㅋ
ai레벨 36찍었노 ㅋㅋㅋ
추천
인간 세상의 끝이 도래한다 곧 있으면 유튜브 게임 스트리머 이런것도 목소리 합성 + ai가 직접 플레이로 무인 스트리머들 많아지겠다
초딩때 골드버전 엄청많이했는데 엔딩은 1번도 못본듯 항상 어느 지점쯤 가면 접게됨 다양한이유로
결국 AI에게 학습에 대한 적절한 가이드라인을 주는것 자체를 인간이 학습해야한다는건가