Заставка к нашим лекциям как никогда актуальна!

Роботы играют в Го!

Программа AlphaGo, разработанная компанией DeepMind, выиграла матч в го у трехкратного чемпиона Европы Фань Хуэя. Это первый случай, когда компьютер выиграл матч у профессионального игрока в го без форы.

Матчу предшествовало соревнование AlphaGo с другими программами по игре в го, в котором разработка DeepMind выиграла 494 матча из 495.

В марте AlphaGo сыграет с корейцем Ли Седолем, который считается одним из лучших игроков в го в мире.

Ранее компьютерные программы несколько раз выигрывали партии в го у профессиональных игроков, имея фору в несколько камней.

Сложность обучения искусственного интеллекта игре в го связана с целым рядом особенностей игры — в частности, большим количеством возможностей для хода, размерами доски (19 на 19 клеток) и постепенным увеличением количества камней на доске. По вычислениям математика Джона Тромпа, число допустимых комбинаций в го состоит из 171 цифры и превышает число атомов в наблюдаемой вселенной, передает N+1.

Настольная игра го появилась в Древнем Китае более двух с половиной тысяч лет назад. Популярность за пределами Дальнего Востока игра приобрела только в XX веке. В Международную федерацию го входят 75 стран.

В феврале 2015 года компания DeepMind заявила о разработке программы, способной самостоятельно учиться играть в игры с видеоприставки Atari 2600 и достигать больших успехов.

 Обыграет ли программа Ли Седоля!?

оригинал статьи

*** Комментарии:

В последнее время заметен прямо таки некоторый прорыв в реальном использовании многослойных обобщающих нейросетей (каскады нелинейных преобразований) для реальных задач. Называется это дело deep learning (глубинное обучение) и оно успешно применяется в «таких областях как компьютерное зрение, распознавание речи, обработка естественного языка» (см. wikipedia). Программисты наконец-то научились правильно обучать такие сети =)

Пишут что AlphaGo сначала обучали на наборе реальных партий, однако гораздо лучший уровень «понимания» аспектов игры этой нейросетью был получен, когда сеть стала обучаться на собственной игре с собой же и на результатах игры с другими компьютерными программами. При выборе хода AlphaGo комбинирует два подхода: 1) глубокий оценочный (оценивающий каждый пункт на доске, перебирающий от варианта с максимальной оценкой) и 2) случайный (Монте-Карло) по некоторым шаблонам игры (распространения, защита, игра рядом с предыдущими ходами и пр.) — утверждают что при смешивании этих подходов 50/50 программа быстрее находит более эффективные ходы.