Pesquisadores da empresa DeepMind, que pertence ao Google, criaram jogadores virtuais, ou bots, que aprenderam sozinhos - sem qualquer instrução prévia - a jogar dois videogames multijogadores em 3D na primeira pessoa.
Esses agentes de software alcançaram habilidades semelhantes às humanas, não apenas jogando sozinhos, mas também cooperando para atingir um objetivo comum.
Este é um avanço significativo em relação aos feitos anteriores da empresa, que envolveram derrotar jogadores humanos de xadrez e Go.
Os agentes de inteligência artificial, que aprenderam com base em uma técnica de aprendizado de máquina conhecida como "aprendizagem por reforço", demonstram uma capacidade incomum de desenvolver e usar estratégias de alto nível, aprendidas por eles próprios de forma independente, para competir e cooperar no ambiente do jogo.
A aprendizagem por reforço, um método usado para treinar agentes artificialmente inteligentes, já havia mostrado seu potencial ao gerar jogadores virtuais inteligentes capazes de navegar em ambientes de jogador único cada vez mais complexos, como xadrez e Go.
No entanto, a capacidade de disputar com vários jogadores simultaneamente, particularmente jogos que envolvem trabalho em equipe e interação entre vários jogadores independentes, nunca havia sido demonstrada justamente por ser algo de um nível de complexidade muito superior.
Max Jaderberg e seus colegas demonstraram o potencial do seu bot de inteligência artificial em partidas em primeira pessoa nos jogos Quake III Arena e Capture a Bandeira.
Em contraste com demonstrações anteriores, nas quais os agentes de inteligência artificial recebiam um "conhecimento" prévio sobre o ambiente do jogo ou o status dos outros jogadores, esta nova abordagem assegurou que cada agente de software aprendesse independentemente por sua própria experiência, usando apenas o que o próprio programa poderia "ver" - os píxeis da tela e a pontuação do jogo.
Um sistema de software desse tipo que seja incorporado em um robô também seria alimentado de informações da mesma forma, já que as câmeras fornecem justamente píxeis.
Os agentes de inteligência artificial, que aprenderam com base em uma técnica de aprendizado de máquina conhecida como "aprendizagem por reforço", demonstram uma capacidade incomum de desenvolver e usar estratégias de alto nível, aprendidas por eles próprios de forma independente, para competir e cooperar no ambiente do jogo.
A aprendizagem por reforço, um método usado para treinar agentes artificialmente inteligentes, já havia mostrado seu potencial ao gerar jogadores virtuais inteligentes capazes de navegar em ambientes de jogador único cada vez mais complexos, como xadrez e Go.
No entanto, a capacidade de disputar com vários jogadores simultaneamente, particularmente jogos que envolvem trabalho em equipe e interação entre vários jogadores independentes, nunca havia sido demonstrada justamente por ser algo de um nível de complexidade muito superior.
Max Jaderberg e seus colegas demonstraram o potencial do seu bot de inteligência artificial em partidas em primeira pessoa nos jogos Quake III Arena e Capture a Bandeira.
Em contraste com demonstrações anteriores, nas quais os agentes de inteligência artificial recebiam um "conhecimento" prévio sobre o ambiente do jogo ou o status dos outros jogadores, esta nova abordagem assegurou que cada agente de software aprendesse independentemente por sua própria experiência, usando apenas o que o próprio programa poderia "ver" - os píxeis da tela e a pontuação do jogo.
Um sistema de software desse tipo que seja incorporado em um robô também seria alimentado de informações da mesma forma, já que as câmeras fornecem justamente píxeis.
Créditos: Inovação Tecnológica