Como o OPRO do Google DeepMind transforma LLMs em ferramentas de solução de problemas

Nos últimos anos, tem havido um esforço conjunto para ampliar os modelos de linguagem para o que hoje chamamos de Large Language Models (LLMs), que envolve o treinamento de modelos maiores em conjuntos de dados mais extensos com maior poder computacional – resultando em melhorias consistentes e esperadas em seu texto. habilidades de geração.

À medida que os LLMs continuam a crescer, chegam a um ponto em que desbloqueiam novas capacidades, um fenómeno conhecido como aprendizagem em contexto ou aprendizagem baseada em prompts.

Estas novas competências desenvolvem-se naturalmente sem formação específica, permitindo aos LLMs realizar tarefas como aritmética, responder a perguntas e resumir textos, todas adquiridas através da exposição à linguagem natural.

Essa empolgação recentemente assumiu uma nova dimensão, à medida que pesquisadores do Google DeepMind transformaram LLMs em poderosas ferramentas de otimização usando sua técnica de prompting, conhecida como Otimização por PROmpting (OPRO).

Aprendizagem em contexto ou baseada em prompts: um comportamento emergente de LLMs

O comportamento emergente descreve como um sistema pode mudar drasticamente seu comportamento quando pequenos ajustes são feitos dentro dele, especialmente quando atinge um limite específico.

Um excelente exemplo de comportamento emergente pode ser visto na água. À medida que a temperatura diminui, o comportamento da água muda gradualmente, mas há um ponto crítico onde algo notável acontece. A esta temperatura específica, a água sofre uma transformação rápida e significativa, passando do estado líquido para o gelo, como apertar um interruptor.

O comportamento emergente não se limita a campos específicos, mas a vários domínios, como física, biologia, economia e sistemas. No contexto dos LLMs, no entanto, isto significa que, após uma determinada fase da sua formação, os LLMs parecem transitar para um novo modo onde podem resolver eficazmente problemas complexos sem formação explícita.

Esse comportamento notável geralmente é iniciado e orientado por meio de prompts, que são instruções em linguagem natural fornecidas aos LLMs. Como a qualidade das respostas do LLM está intimamente ligada à qualidade do prompt, a elaboração de prompts eficazes evoluiu para um elemento essencial da utilização do LLM.

Por exemplo, Cadeia de Pensamento é uma técnica de estímulo desenvolvida para permitir ao modelo dividir problemas complexos em subproblemas e encadeá-los para resolver problemas de uma forma que resolvemos problemas matemáticos e de raciocínio. Esse comportamento é alcançado fornecendo as etapas intermediárias de raciocínio e a solução final como um prompt para orientar os LLMs na realização dessas tarefas.

Por exemplo, para permitir que o LLM resolva tarefas de raciocínio de bom senso como “Vou fazer uma caminhada e preciso levar água. Quantas garrafas de água de 16 onças devo levar para uma caminhada de 16 quilômetros?”, podemos sugerir o modelo como “Uma orientação geral é beber cerca de 0,5-1 litro (17-34 onças) de água por hora de caminhada. Para uma caminhada de 16 quilômetros, você precisa de pelo menos 1 a 2 garrafas, então duas garrafas de 16 onças cada devem ser suficientes.

Evolução de LLMs em otimizadores poderosos

A investigação contemporânea em IA está a testemunhar um interesse crescente no desenvolvimento de técnicas inovadoras para estimular eficazmente os LLMs, aproveitando as suas capacidades emergentes para enfrentar tarefas de resolução de problemas.

Neste contexto, os pesquisadores do Google DeepMind alcançaram recentemente um avanço significativo com uma nova técnica de prompt conhecida como “Otimização por PROmpting” (OPRO), que pode levar os LLMs a resolver problemas de otimização. Essa capacidade emergente de otimização adiciona uma nova camada de utilidade a esses LLMs, tornando-os ferramentas valiosas para resolução de problemas em vários domínios.

Considere as possibilidades. Você pode apresentar um problema complexo de engenharia em inglês simples, em vez de definir formalmente o problema e derivar a etapa de atualização com um solucionador programado. O modelo de linguagem pode compreender as complexidades e propor soluções otimizadas. Da mesma forma, a análise financeira pode auxiliar na otimização do portfólio ou na gestão de riscos. As aplicações abrangem um amplo espectro, desde a gestão da cadeia de abastecimento e logística até à investigação científica e campos criativos como a arte e o design.

Como funciona o OPRO?

Resumindo, o OPRO utiliza o poder dos modelos de linguagem para resolver problemas, gerando e avaliando soluções, ao mesmo tempo em que compreende a linguagem regular e aprende com o que foi feito antes. É como ter um assistente inteligente que fica cada vez melhor na busca de soluções à medida que avança. Um componente essencial deste processo é o meta-prompt, que tem duas partes principais:

• Primeiro, explica o problema em palavras, incluindo o que estamos tentando alcançar e quaisquer regras que devemos seguir. Por exemplo, se estamos tentando melhorar a precisão de uma tarefa, as instruções podem dizer “invente uma nova maneira de tornar a tarefa mais precisa”.

• Segundo, inclui uma lista de soluções que o LLM já tentou antes e quão boas elas eram. Esta lista ajuda o LLM a reconhecer padrões nas respostas e desenvolver aqueles que parecem promissores.

Durante cada etapa do processo de otimização, o LLM apresenta soluções potenciais para a tarefa de otimização. Ele faz isso considerando tanto a descrição do problema quanto as soluções que viu e avaliou antes, que são armazenadas no meta-prompt.

Uma vez geradas essas novas soluções, elas são cuidadosamente examinadas para ver se são boas na resolução do problema. Eles são adicionados ao meta-prompt se superarem as soluções anteriormente conhecidas. Isso se torna um ciclo onde o LLM continua aprimorando suas soluções com base no seu aprendizado.

Para entender a ideia, considere a tarefa de otimizar um portfólio financeiro. Um “LLM otimizador” é fornecido com um meta-prompt contendo parâmetros de investimento e exemplos com espaços reservados para prompts de otimização. Gera diversas alocações de portfólio. Essas carteiras são avaliadas por um “analisador de desempenho LLM” com base em retornos, riscos e outras métricas financeiras. Os prompts para os portfólios de melhor desempenho e suas métricas de desempenho são integrados ao meta-prompt original. Este meta-prompt refinado é então usado para melhorar o portfólio inicial e o ciclo se repete para otimizar os resultados do investimento.

O resultado final

Avanços como o OPRO são um paradoxo – cativantes pelo seu potencial ilimitado para expandir os nossos horizontes e desconcertantes porque inauguram uma era em que a IA pode criar autonomamente processos complexos, incluindo a otimização, confundindo os limites do controlo e da criação humana.

No entanto, a capacidade de transformar Large Language Models (LLMs) em otimizadores poderosos estabelece o OPRO como uma abordagem robusta e versátil para a resolução de problemas. O potencial da OPRO abrange engenharia, finanças, gestão da cadeia de suprimentos e muito mais, oferecendo soluções eficientes e inovadoras. Ele marca um passo significativo na evolução da IA, capacitando os LLMs a aprender e melhorar continuamente e abrindo novas possibilidades para a resolução de problemas.

Como o OPRO do Google DeepMind transforma LLMs em ferramentas de solução de problemas

Surgem dúvidas sobre o envolvimento da Binance com os fundos criptográficos do Hamas

Explosão de IA alimenta demanda por chips personalizados

Violação de dados 23andMe: quando a privacidade genética se torna uma mercadoria

Como o OPRO do Google DeepMind transforma LLMs em ferramentas de solução de problemas

Aprendizagem em contexto ou baseada em prompts: um comportamento emergente de LLMs

Evolução de LLMs em otimizadores poderosos

Como funciona o OPRO?

O resultado final

Postagens relacionadas

Surgem dúvidas sobre o envolvimento da Binance com os fundos criptográficos do Hamas

Explosão de IA alimenta demanda por chips personalizados

Violação de dados 23andMe: quando a privacidade genética se torna uma mercadoria