게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
알파고 '딥 마인드' 가 스스로 학습하는 과정.utb
게시물ID : gametalk_301853짧은주소 복사하기
작성자 : 사닥호
추천 : 13
조회수 : 1170회
댓글수 : 15개
등록시간 : 2016/03/11 18:41:22

벽돌깨기 학습과정
 
단지 점수를 최대로 높이라는 명령 외엔 아무런 정보도 주지 않음
딥마인드는 '공' 이 뭔지 어떻게 막대기를 조종하는지도 모른다. 그냥 무작정 시작
 
1. 처음 10분 동안은 딥마인드가 막대기를 움직여서 공을 쳐보려고 하지만 컨트롤 능력이 떨어져서 헤맨다.
 
2. 120분 지나자 능숙한 플레이가 가능해진다.
 
3. 대단한 일이 240분째 발생한다.
 
터널을 파는게 고득점을 위한 효과적인 방법이란걸 딥마인드가 알게 되는거다
게임을 반복하면서 처음 받은 명령인 '최대 점수를 내라' 를 이루는 방법을 찾아냈다는 것이다.
볼 컨트롤을 터득하는걸 넘어서 효과적인 전략을 스스로 찾아낸거다.

 

출처 https://youtu.be/V1eYniJ0Rnk
꼬릿말 보기
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호