Category Inteligência Artificial

Acurácia de LLMs

📊 Em um projeto recente, tive a oportunidade de testar diversos LLMs para um case no setor de Marketing de uma empresa na área de Notícias e Geração de Conteúdo.

Irei explorar o case em mais detalhes futuramente, mas apenas para contextualizar, estávamos classificando cerca de 2.000 notícias criadas nos últimos 24 meses de acordo com um novo sistema de classificação de conteúdo proposto pela empresa.

Utilizamos o AWS Bedrock para esta tarefa, o que nos permitiu comparar diversos modelos em cima de um mesmo pipeline.

Para além da performance dos modelos, outras questões como revisão do sistema de classificação, comparação com concorrentes, custo e etc também foram levantadas e serão abordadas posteriormente.

Agora quero apenas trazer para vocês o desempenho de cada modelo em nosso teste, com a acurácia baseada em um dataset de treino já rotulado.

Para termos um benchmark, comparamos a performance do modelo com a de um time de especialistas da empresa que também realizou uma classificação do dataset de treino, sem saber a resposta correta.

AWS Bedrock

🧑‍🏭 Estou usando o AWS Bedrock e estou gostando muito!

Para quem já está trabalhando com IA (a.k.a. Machine Learning, Estatística, etc) há alguns anos, é incrível ver a evolução das ferramentas e de como isso afeta a produtividade, a prototipagem e a entrega de soluções.

Tenho trabalhado nos últimos meses com o AWS Bedrock e a plataforma não para de me supreender. Eis alguns motivos:

– Existe um grande catálogo de modelos LLMs disponíveis e já plugados à plataforma

– Existem ferramentas de sandbox para você testar e comparar modelos rapidamente, sem precisar de grandes configurações

– Existem configurações mais avançadas, quando você precisa extrair o máximo de um modelo

– Existe controle e versionamento de prompt, para você testar a performance de diversos prompts em cima dos mesmos dados

– É possível construir Flows com múltiplas chamadas de prompt, realizando tarefas complexas em um ambiente drag-and-drop

– É possível interagir com estes Flows através de chamadas da API do Bedrock, tornando o acesso possível a partir de qualquer software, integrando assim o poder das múltiplas LLMs ao seu produto

Futuro do Trabalho

💻 O avanço da Inteligência Artificial faz as pessoas se questionarem: “o que acontecerá com meu emprego?”

Como este é um sentimento bastante comum, diversas pesquisas sobre o assunto foram realizdas.

Uma delas é o relatório “Future of Jobs” do World Economic Forum. Os principais impactos previstos são:

Criação e Eliminação de Empregos:
• Até 2030, prevê-se a criação de cerca de 170 milhões de novos empregos, representando 14% do total de empregos atuais.
• Ao mesmo tempo, estima-se a eliminação de aproximadamente 92 milhões de empregos (8% do total), resultando em um crescimento líquido de 78 milhões de postos de trabalho (7% de aumento).

Dinâmica dos Papéis Profissionais:
• Papéis impulsionados por tecnologias emergentes — como especialistas em Big Data, FinTech, AI e desenvolvedores de software — estão entre os que mais crescem.
• Empregos relacionados à transição verde, como engenheiros ambientais e especialistas em energias renováveis, também apresentam forte crescimento.
• Em contrapartida, funções administrativas (por exemplo, caixas, atendentes e operadores de entrada de dados) estão entre os que mais declinam, principalmente devido à automação e à digitalização dos processos.

Impactos Diferenciados por Setor e Região:
• O crescimento ou declínio dos empregos varia conforme o setor: setores fundamentais como agricultura, construção e transporte podem registrar aumentos expressivos em volume absoluto.
• Além disso, as transformações são moduladas por características regionais e econômicas, refletindo as diferentes realidades demográficas e tecnológicas de cada região.

Letramento de Dados

🎲 As ferramentas de GenAI têm um papel fundamental na democratização do letramento de dados, tornando o acesso e a compreensão dos dados mais simples e acessíveis a um público amplo, mesmo para aqueles sem um profundo conhecimento técnico e é aí que está o pulo do gato:

– Interação em Linguagem Natural
– Visualizações Automatizadas
– Redução das Barreiras Técnicas
– Aprendizado e Educação Contínuos
– Agilidade na Tomada de Decisão

Essas características potencializam o letramento de dados nas empresas ao democratizar o acesso à análise e interpretação dos dados, permitindo que usuários de diferentes níveis técnicos explorem informações relevantes por meio de interações em linguagem natural, visualizações intuitivas e insights automatizados, o que contribui para decisões mais informadas e uma cultura data-driven.

Claude 3.7 Sonnet: O Futuro da Inteligência Híbrida em 7 Pontos:

✅ Tipos Disponíveis: O Claude 3.7 Sonnet oferece modos de pensamento padrão e estendido, aumentando sua versatilidade para diferentes tarefas.

✅ Comparação com o Claude 3.5: O Claude 3.7 Sonnet supera o Claude 3.5 em raciocínio, codificação e capacidade de saída, com a adição de um modo de pensamento estendido.

✅ Métricas de Desempenho: O Claude 3.7 Sonnet alcança altas pontuações em benchmarks como GPQA Diamond (84,8%), AIME 2024 (80,0%) e MATH 500 (96,2%).

✅ Comparação com o GPT-4.5: Em geral, supera o GPT-4.5 em vários benchmarks.

✅ Comparação com Modelos da OpenAI: Supera o o1 da OpenAI em raciocínio de nível universitário, mas é igualado pelo o3-mini na resolução de problemas matemáticos.

✅ Comparação com o Grok 3 Beta: Está ligeiramente atrás do Grok 3 Beta em raciocínio de nível universitário, mas significativamente atrás em competições de matemática do ensino médio.

✅ Recursos Principais: Oferece raciocínio híbrido, modo de pensamento estendido e suporte a múltiplos idiomas, tornando-o versátil para codificação, resolução de problemas e geração de conteúdo.

Goku vs Sora

💡 O que é o “Goku”?

O Goku, cujo nome oficial é OmniHuman-1, é um novo modelo multimodal de IA da ByteDance baseado na arquitetura “Rectified Transformer Flow” de aprendizado de máquina profundo, utilizada na maioria dos modelos de difusão modernos para gerar imagens a partir de prompts multimodais.

A maior vantagem dessa arquitetura em relação a transformadores anteriores é que, além de combinar geração integrada de vídeos e imagens, ela possibilita um aprendizado intermodal nos processos de treinamento.

A inovação abre margem para criação de conteúdos audiovisuais extremamente realistas totalmente por IA. Conforme os dados de benchmark divulgados na página do modelo no GitHub, o Goku-T2V tem uma média de desempenho superior a vários outros modelos similares, inclusive o Sora, da OpenAI.

O benchmark está na imagem do post. Link para o Github do projeto.

Google Astra

⚡ O projeto Astra do Google Deepmind (a divisão de IA do Google), é a maneira como acredito que a IA fará uma diferença real na vida das pessoas (no CPF mesmo, não no mundo corporativo, que terá muitos outros impactos). A interação de um agente que, através de áudio e vídeo, consegue interagir com o ambiente é uma maneira muito natural e muito útil para o dia-a-dia.

🌎 O Astra foi anunciado no Google I/O de 2024 e agora está no modo de testes, infelizmente apenas para usuários Android de EUA, Canadá e Reino Unido.

📰 Na reportagem abaixo do MIT Tech Review, vocês podem acompanhar mais detalhes de como o Astra funciona:

https://mittechreview.com.br/google-projeto-astra-ia/

Orquestração de LLMs

📢 Já ouviu falar em LangChain?

🧠 O LangChain é uma estrutura que facilita a orquestração de chamadas a diferentes modelos de linguagem (LLMs), permitindo que você integre e gerencie múltiplos LLMs de forma eficiente. Ele oferece várias funcionalidades que ajudam nesse processo:

– Abstração de Modelos: O LangChain fornece uma camada de abstração que permite que você trabalhe com diferentes LLMs (como GPT-3, GPT-4, Claude, etc.) de maneira uniforme. Isso significa que você pode trocar de modelo sem precisar reescrever grande parte do código.

– Encadeamento de Chamadas: Você pode criar cadeias (chains) de chamadas a diferentes LLMs, onde a saída de um modelo pode ser usada como entrada para outro. Isso é útil para tarefas complexas que requerem múltiplos passos de processamento.

– Gerenciamento de Contexto: O LangChain ajuda a manter o contexto entre diferentes chamadas a LLMs, o que é crucial para tarefas que envolvem conversas ou processamento de texto contínuo.

– Integração com Ferramentas Externas: Além de LLMs, o LangChain permite a integração com outras ferramentas e APIs, como bancos de dados, APIs de busca, e sistemas de armazenamento, o que amplia as possibilidades de uso.

– Modularidade: A estrutura é altamente modular, permitindo que você crie pipelines personalizados que combinam diferentes LLMs e ferramentas conforme necessário.

– Prompt Management: O LangChain facilita a gestão de prompts, permitindo que você crie, reutilize e otimize prompts para diferentes LLMs.

– Memória: Ele oferece suporte a diferentes tipos de memória, como memória de curto prazo e memória de longo prazo, para manter o contexto entre interações.

Alibaba Qwen 2.5 Max

📢 Já ouviu falar na Arquitetura MoE? A Mixture Of Experts (MoE) é uma arquitetura utilizada em GenAI para criar modelos que, de maneira simplificada, são um “conjunto de modelos especialistas” e isto possibilita a diminuição na complexidade de treinamento do modelo e também sua escalabilidade operacional.

🧑‍💼 Uma maneira didática de separar um modelo MoE (ex.: Alibaba Qwen 2.5 Max, DeepSeek V3) de um modelo Denso (OpenAI 4o, o1) é a seguinte: os modelos Densos são como uma pessoa muito inteligente que sabe sobre muitos assuntos, já um MoE é como um time de especialistas onde cada um sabe apenas sua parte.

⚙️ Do ponto de vista operacional é mais fácil treinar e executar um MoE pois você pode treinar, adicionar ou executar partes específicas do modelo, sem precisar ativar o modelo como um todo e daí vem o grande ganho de escala em comparação aos modelos Densos. Do ponto de vista prático, estes modelos tem conseguidos resultados extraordinários contra seus concorrentes. Veja na imagem a comparação entre eles

Viva a Voz

Advogado humanóide, imagem sintética gerada por IA

Concordo com você, Neil Patel: o futuro da GenAI é a voz.

Em recente newsletter, Neil enfatizou esse lado promissor da GenAI e concordo muito com isso.

É muito mais natural para nós, humanos, interagirmos via linguagem…falando. A conversa é uma forma muito mais fluída do que o prompt.

Segundo: a internet realmente deslanchou com o advento dos smartphones, imagino que o mesmp irá acontecer com a GenAI utilizando voz.

Imagine-se por alguns instantes:
– Conversando com o Waze sobre pequenas alterações de rota

– Pedindo mais informações para um smart glass sobre algo que você está vendo naquele momento

– Pedindo para seu carro explicar aquela luzinha que ninguém sabe o que significa

– Explicando seu mood para o Spotify montar uma playlist para aquela manhã difícil de sair da cama

Como você vê o futuro da GenAI?