알파고 ＇딥 마인드＇ 가 스스로 학습하는 과정.utb

벽돌깨기 학습과정

단지 점수를 최대로 높이라는 명령 외엔 아무런 정보도 주지 않음

딥마인드는 '공' 이 뭔지 어떻게 막대기를 조종하는지도 모른다. 그냥 무작정 시작

1. 처음 10분 동안은 딥마인드가 막대기를 움직여서 공을 쳐보려고 하지만 컨트롤 능력이 떨어져서 헤맨다.

2. 120분 지나자 능숙한 플레이가 가능해진다.

3. 대단한 일이 240분째 발생한다.

터널을 파는게 고득점을 위한 효과적인 방법이란걸 딥마인드가 알게 되는거다

게임을 반복하면서 처음 받은 명령인 '최대 점수를 내라' 를 이루는 방법을 찾아냈다는 것이다.

볼 컨트롤을 터득하는걸 넘어서 효과적인 전략을 스스로 찾아낸거다.

전체 추천리스트 보기