딥마인드가 몇일뒤 블리즈컨에서 알파고 스타를 공개하려는것 같습니다

1.블리즈컨 마지막날 4일 스2 일정보면 결승전치루고 2시간이나 공백시간이 남습니다

상식적으로 알파고랑 게임하는것 말고 저시간이나 스타2에 쓸 떡밥이 없죠

1년전에 도타2 결승전하고 나서 스페셜매치한다고 뜬금없이 컴퓨터 한대 등장시키더니 인간챔피언이랑 1대1 게임을 했는데

오픈AI에서 만든 도타2 알파고가 인간 챔피언을 이긴적도 있었죠

아마 그때처럼 알파스타를 공개하려는것 같습니다

2.몇달전에 딥마인드가 스타2 논문을 새로 냈습니다

https://deepmind.com/research/publications/starcraft-ii-new-challenge-reinforcement-learning/

이 글에서는 스타 크래프트 II 게임을 기반으로 한 강화 학습 환경 인 SC2LE (StarCraft II Learning Environment)을 소개합니다. 이 영역은 강화 학습을위한 새로운 웅장한 도전 과제를 제시하며, 이는 이전의 대부분의 연구에서 다루어 진 것보다 어려운 수준의 문제를 나타냅니다. 여러 플레이어가 상호 작용하는 다중 에이전트 문제입니다. 부분적으로 관찰 된지도 때문에 불완전한 정보가 있습니다. 그것은 수백 개의 단위를 선택하고 통제하는 것과 관련된 커다란 행동 공간을 가지고있다.

원시 입력 특징 평면에서만 관찰되어야하는 큰 상태 공간을 가지고 있습니다. 수천 단계에 걸친 장기 전략을 필요로하는 신용 할당이 지연되었습니다. 우리는 스타 크래프트 II 도메인에 대한 관찰, 행동 및 보상 사양을 설명하고 게임 엔진과 통신하기위한 오픈 소스 파이썬 기반 인터페이스를 제공합니다. 주요 게임지도 외에도 스타 크래프트 II 게임 플레이의 다양한 요소에 중점을 둔 미니 게임 세트를 제공합니다. 주요 게임 맵의 경우, 우리는 또한 인간 전문 플레이어의 게임 재생 데이터의 부속 데이터 세트를 제공합니다.

우리는이 데이터로부터 훈련 된 신경망에 대한 초기베이스 라인 결과를 제공하여 게임 결과 및 플레이어 행동을 예측합니다. 마지막으로, 스타 크래프트 II 도메인에 적용된 표준 심층 강화 학습 에이전트에 대한 초기 기준 결과를 제시합니다. 미니 게임에서이 에이전트는 초보자 플레이어와 비슷한 수준의 게임을하는 법을 배웁니다. 그러나 메인 게임에서 훈련을 받았을 때,이 에이전트들은 큰 진전을 이루지 못했습니다. 따라서 SC2LE은 심층적 인 학습 알고리즘 및 아키텍처를 탐구하기위한 새롭고 도전적인 환경을 제공합니다.

https://arxiv.org/pdf/1708.04782.pdf