As máquinas já estão vencendo… O Atari

Em um artigo na revista Nature, pesquisadores do laboratório DeepMind, comprado no ano passado pelo Google, descreveram o seu mais novo avanço na área de “inteligência artificial” (na verdade, muito mais aprendizado de máquina do que IA, mas who cares): Um programa, chamado no artigo de agente DQN (Deep Q-Network), que, sem nenhum tipo de informação anterior, consegue aprender sozinho a jogar diversos jogos de Atari.

Science, Bitches!

Depois de ler isto, você, leitor, pode ter duas possíveis reações: A primeira “Meh, grandes merdas, qualquer retardado consegue ir bem em um jogo de Atari, obóvio que um programa também conseguiria” e a segunda “Oh meu deus, as máquinas estão ficando inteligentes. Corram para os bunkers”. Titio Maximus está aqui para mostrar para ambas as reações que não é bem assim.

Vocês talvez já tenham lido a respeito desta notícia em outros sites, contudo, todos que eu vi a respeito mostravam informações incorretas ou desencontradas sobre o que realmente foi feito. Por causa disso, me dei ao trabalho de ler o artigo original na Nature e resolvi explicar para vocês mais ou menos qual é o pó.

O que de fato ele faz?

No artigo é descrito, basicamente, um programa que recebe como entrada, a cada frame, a tela de um jogo de Atari e se foi marcado um ponto ou não, e, baseado nestas informações, faz um movimento no joystick do jogo (seja apertar um botão, uma direção ou ambos juntos). O DQN não recebe nenhuma explicação extra, e, ainda assim, aprende como jogar o jogo bem, muitas vezes melhor mesmo que jogadores profissionais de Atari. Quais jogos e quão bem, você pergunta? Olhaí um gráfico mostrando quais jogos ele aprendeu:

Em todos os jogos acima da linha, o DQN venceu o jogador profissional.

Novamente, nestes resultados, o DQN não recebeu nenhuma explicação de como os jogos funcionam. O computador aprendeu “sozinho” como jogar cada um deles, e ainda assim joga vários deles bem melhor que um jogador profissional.

Uma coisa visível nesta lista é que o DQN se dá muito melhor em jogos que dependem de reflexos rápidos do que em jogos que dependem de planejamento (como Pac-Man e Montezuma’s revenge). Ainda assim, o DQN conseguiu descobrir sozinho estratégias vencedoras para vários jogos, como em Breakout, onde, conforme ele ia sendo treinado (ou seja, conforme ele jogava mais partidas), o DQN aprendeu que o ideal é quebrar os tijolos do canto para deixar a bolinha presa no lado de cima.

https://www.youtube.com/watch?v=8E1eMVW0X7E

OK, mas como isso é diferente, por exemplo, do Deep Blue?

O Deep Blue é, provavelmente, o computador/programa mais famoso a jogar algum jogo. Contudo, ele é essencialmente diferente do DQN: O Deep Blue foi programado com o auxilio de um mestre de Xadrez, e tem as regras do jogo firmemente plantadas em sua programação. O DQN, por outro lado, não sabe absolutamente nada sobre as regras do jogo até começar a jogar, e aprende sozinho quais as melhores atitudes para alcançar boas pontuações no jogo. Além disso, o DQN pode aprender diversos jogos diferentes sem nenhuma modificação em sua arquitetura, apenas começando o treino do zero, enquanto o DeepBlue só sabe jogar xadrez mesmo.

E como ele faz isso? O DQN lança mão de uma tecnologia recente e muito em voga nos meios de aprendizado de máquina: Redes Neurais Profundas (Deep Neural Networks).  Redes profundas são um avanço recente, e foram responsável por coisas mágicas como o reconhecimento de voz moderno (seja Siri, Cortana, reconhecimento do Google, e etc), de imagens, vídeos e muitos outros. Elas foram baseadas na forma como o cérebro humano processa informações visuais, com camadas de neurônios extras escondidas em comparação com as redes neurais tradicionais, e são estas camadas escondidas que fazem um processamento “mágico” chamado convolução (obóviamente não entrarei em detalhes sobre como ele funciona, mas caso queiram tem esse curso aqui). Aliás, estas mesmas camadas extras geram um grande problema em entender exatamente como o programa está tomando suas decisões, e redes mais complexas podem ter um comportamento indecifrável para mentes humanas.

“Todos saúdem nossos mestres computadorizados”

Concluindo, o DQN não é nenhuma grande descoberta científica ou mudança de paradigma, já que tudo que ele fez foi aplicar tecnologias já existentes no contexto dos jogos de Atari. Ainda assim, o trabalho é mais uma prova do potencial que este tipo de técnica (redes neurais profundas) podem trazer para a humanidade (excetuando aqui, a inevitável Skynet).

Sair da versão mobile