Como diz a velha expressão, “Uma imagem vale mais que mil palavras”, e ao longo do ano passado, a multimodalidade – a capacidade de inserir inputs em múltiplos formatos como texto, imagem e voz – está a emergir como uma necessidade competitiva no grande mercado linguístico. mercado de modelo (LLM).
No início desta semana, o Google anunciou o lançamento de Assistente com Bardoum assistente pessoal generativo baseado em IA que vem com o Google Assistant e o Bard juntos, que permitirá aos usuários gerenciar tarefas pessoais por meio de entrada de texto, voz e imagem.
Isso acontece apenas uma semana depois que a OpenAI anunciou o liberar do GPT-4V, permitindo aos usuários inserir entradas de imagem no ChatGPT. Também acontece na mesma semana em que a Microsoft confirmou que os usuários do Bing Chat teriam acesso ao popular ferramenta de geração de imagens DALL-E 3.
Esses últimos lançamentos da OpenAI, Google e Microsoft destacam que a multimodalidade se tornou um componente crítico para a próxima geração de LLMs e produtos baseados em LLM.
O treinamento de LLMs em entradas multimodais abrirá inevitavelmente a porta para uma série de novos casos de uso que não estavam disponíveis com interações texto-texto.
A era multimodal LLM
Embora a ideia de treinar sistemas de IA em entradas multimodais não seja nova, 2023 foi um ano crucial para definir o tipo de experiência que os chatbots de IA generativos proporcionarão no futuro.
No final de 2022, o conhecimento geral dos chatbots de IA generativos foi amplamente definido pelo recém-lançado ChatGPT, que fornecia aos usuários um assistente virtual detalhado baseado em texto onde eles podiam fazer perguntas de forma semelhante à pesquisa do Google (embora a solução não estivesse conectada a Internet nesta fase).
É importante notar que LLMs de texto para imagem como DALL-E 2 e Midjourney foram lançados no início de 2022, e a utilidade dessas ferramentas estava confinada à criação de imagens, em vez de fornecer aos usuários e trabalhadores do conhecimento um recurso de conversação no caminho que o ChatGPT fez.
Foi em 2023 que a linha entre chatbots de IA generativos centrados em texto e ferramentas de texto para imagem começou a se confundir. Este foi um processo gradual, mas pode surgir depois que o Google lançou o Bard em março de 2023 e, posteriormente, deu aos usuários a capacidade de insira imagens como entrada apenas dois meses depois, no Google I/O 2023.
Nesse mesmo evento, o CEO do Google Sundar Pichai observou que a organização formou o Google DeepMind, reunindo suas equipes Brain e DeepMind para começar a trabalhar em um modelo multimodal de próxima geração chamado Gemini, e relatou que a equipe estava “vendo capacidades multimodais impressionantes não vistas em modelos anteriores”.
Neste ponto da corrida LLM, embora ChatGPT e GPT4 continuassem sendo as ferramentas de IA generativa dominantes no mercado, o suporte da Bard para entrada de imagens e conexão a fontes de dados online eram diferenciais importantes de concorrentes como OpenAI e Anthropic.
A Microsoft também começou a avançar em direção à multimodalidade em julho, adicionando suporte para entradas de imagem ao seu assistente virtual Bing Chat, lançado em fevereiro de 2023.
Agora, com os lançamentos do GPT-4V e do Assistant with Bard oferecendo suporte para entradas de imagem e, no caso deste último, entradas de voz, fica claro que há uma corrida armamentista multimodal ocorrendo no mercado. O objetivo é desenvolver um chatbot omnicanal capaz de interagir com entradas de texto, imagem e voz e responder adequadamente.
O que LLMs multimodais significam para os usuários
A mudança do mercado para LLMs multimodais tem algumas implicações interessantes para os utilizadores, que terão acesso a uma gama muito mais ampla de casos de utilização, traduzindo texto em imagens e vice-versa.
Por exemplo, um estudo divulgado por pesquisadores da Microsoft fez experiências com os recursos do GPT-4V e descobriu uma variedade de casos de uso em visão computacional e linguagem de visãoincluindo descrição e reconhecimento de imagens, compreensão visual, compreensão de texto de cena, raciocínio de documentos, compreensão de vídeo e muito mais.
Uma capacidade particularmente interessante é a capacidade do GPT-4V de gerenciar entradas de imagem-texto “intercaladas”.
“Este modo de entrada mista oferece flexibilidade para uma ampla gama de aplicações. Por exemplo, ele pode calcular o imposto total pago em várias imagens de recibos”, afirmou o relatório.
“Também permite processar múltiplas imagens de entrada e extrair informações consultadas. O GPT-4V também poderia associar efetivamente informações através de entradas de imagem e texto intercaladas, como financiar o preço da cerveja no cardápio, contar o número de cervejas e retornar o custo total.”
Desafios a superar
É importante observar que, embora os LLMs multimodais abram a porta para uma variedade de casos de uso, eles ainda são vulneráveis às mesmas limitações dos LLMs de texto para texto. Por exemplo, eles ainda têm o potencial de ter alucinações e responder às solicitações dos usuários com fatos e números que são comprovadamente falsos.
Ao mesmo tempo, permitir outros formatos, como imagens, como entrada apresenta novos desafios. A OpenAI tem trabalhado discretamente para implementar proteções para impedir que o GPT-4V seja usado para identificar pessoas e comprometer CAPTCHAs.
Um estudo divulgado pelo fornecedor também destacou jailbreaks multimodais como um fator de risco significativo. “Um novo vetor para jailbreaks com entrada de imagem envolve colocar nas imagens alguns dos raciocínios lógicos necessários para quebrar o modelo”, disse o estudo.
“Isso pode ser feito na forma de capturas de tela de instruções escritas ou até mesmo de dicas de raciocínio visual. Colocar essas informações em imagens inviabiliza o uso de métodos heurísticos baseados em texto para procurar jailbreaks. Devemos confiar na capacidade do próprio sistema visual.”
Essas preocupações estão alinhadas com outro estudo divulgado no início deste ano por pesquisadores da Universidade de Princeton, que alertaram que a versatilidade dos LLMs multimodais “apresenta ao atacante visual uma gama mais ampla de objetivos adversários alcançáveis”. essencialmente ampliando a superfície de ataque.
O resultado final
Com a corrida armamentista do LLM se tornando multimodal, é hora de os desenvolvedores e empresas de IA considerarem os possíveis casos de uso e riscos apresentados por esta tecnologia.
Reservar um tempo para estudar os recursos dessas soluções emergentes ajudará as organizações a garantir que aproveitarão ao máximo a adoção e, ao mesmo tempo, minimizarão os riscos.