AI가 찾은 큐버트의 버그

진화전략 알고리즘으로 아타리판 큐버트를 학습시켰더니 두 가지 흥미로운 전략이 나타났다고 함.[1] 점수 획득형 게임에 ES나 RL 돌려서 새로운 것을 찾아내는 또 다른 예가 될 듯.

첫 번째는 무한 동반 자살. 좀 진행하다가 특정 위치에서 특정 타이밍에 자살하면 쫓아오는 적도 같이 떨어지고, 그 때 목숨도 늘어나기 때문에 점수를 계속 올리는 패턴에 빠지게 된다.

두 번째가 좀 더 재미있는데, 이 경우는 아예 게임의 버그를 찾아냄. 먼저 첫 번째 스테이지의 발판들을 모두 밟아 클리어한 이후, 랜덤하게 보이는 움직임으로 계속 움직인다. 그러면 2탄으로 진행되지 않고 발판들이 계속 반짝이면서 점수가 폭증하게 됨. 이 버그는 기존에 알려져있지 않은 터라 많은 관심을 받게 되었다. 페이퍼에서는 같은 가중치를 쓴 policy network에서 8/30만 고득점을 얻는 것에 성공했다고 함. (초기 컨디션에 따라)

에뮬레이터가 아닌 아타리 2600 콘솔에서 직접 이 버그를 써서 스코어링하는 영상. 논문 저자도 리플을 달았다. “우리는 이 버그가 혹시 에뮬레이션된 버젼에서만 적용되는 것인지 아닌지 확인할 수 없었는데 이제 실기에서도 적용된다는걸 알게 되었네요.”

트윗 타래를 정리. (2018/03/01)

References

[1] P. Chrabaszcz, I. Loshchilov and F. Hutter, “Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari” arXiv preprint arXiv: 1802.08842, 2018.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중