Home

Acurácia de LLMs

📊 Em um projeto recente, tive a oportunidade de testar diversos LLMs para um case no setor de Marketing de uma empresa na área de Notícias e Geração de Conteúdo.

Irei explorar o case em mais detalhes futuramente, mas apenas para contextualizar, estávamos classificando cerca de 2.000 notícias criadas nos últimos 24 meses de acordo com um novo sistema de classificação de conteúdo proposto pela empresa.

Utilizamos o AWS Bedrock para esta tarefa, o que nos permitiu comparar diversos modelos em cima de um mesmo pipeline.

Para além da performance dos modelos, outras questões como revisão do sistema de classificação, comparação com concorrentes, custo e etc também foram levantadas e serão abordadas posteriormente.

Agora quero apenas trazer para vocês o desempenho de cada modelo em nosso teste, com a acurácia baseada em um dataset de treino já rotulado.

Para termos um benchmark, comparamos a performance do modelo com a de um time de especialistas da empresa que também realizou uma classificação do dataset de treino, sem saber a resposta correta.

AWS Bedrock

🧑‍🏭 Estou usando o AWS Bedrock e estou gostando muito!

Para quem já está trabalhando com IA (a.k.a. Machine Learning, Estatística, etc) há alguns anos, é incrível ver a evolução das ferramentas e de como isso afeta a produtividade, a prototipagem e a entrega de soluções.

Tenho trabalhado nos últimos meses com o AWS Bedrock e a plataforma não para de me supreender. Eis alguns motivos:

– Existe um grande catálogo de modelos LLMs disponíveis e já plugados à plataforma

– Existem ferramentas de sandbox para você testar e comparar modelos rapidamente, sem precisar de grandes configurações

– Existem configurações mais avançadas, quando você precisa extrair o máximo de um modelo

– Existe controle e versionamento de prompt, para você testar a performance de diversos prompts em cima dos mesmos dados

– É possível construir Flows com múltiplas chamadas de prompt, realizando tarefas complexas em um ambiente drag-and-drop

– É possível interagir com estes Flows através de chamadas da API do Bedrock, tornando o acesso possível a partir de qualquer software, integrando assim o poder das múltiplas LLMs ao seu produto

Futuro do Trabalho

💻 O avanço da Inteligência Artificial faz as pessoas se questionarem: “o que acontecerá com meu emprego?”

Como este é um sentimento bastante comum, diversas pesquisas sobre o assunto foram realizdas.

Uma delas é o relatório “Future of Jobs” do World Economic Forum. Os principais impactos previstos são:

Criação e Eliminação de Empregos:
• Até 2030, prevê-se a criação de cerca de 170 milhões de novos empregos, representando 14% do total de empregos atuais.
• Ao mesmo tempo, estima-se a eliminação de aproximadamente 92 milhões de empregos (8% do total), resultando em um crescimento líquido de 78 milhões de postos de trabalho (7% de aumento).

Dinâmica dos Papéis Profissionais:
• Papéis impulsionados por tecnologias emergentes — como especialistas em Big Data, FinTech, AI e desenvolvedores de software — estão entre os que mais crescem.
• Empregos relacionados à transição verde, como engenheiros ambientais e especialistas em energias renováveis, também apresentam forte crescimento.
• Em contrapartida, funções administrativas (por exemplo, caixas, atendentes e operadores de entrada de dados) estão entre os que mais declinam, principalmente devido à automação e à digitalização dos processos.

Impactos Diferenciados por Setor e Região:
• O crescimento ou declínio dos empregos varia conforme o setor: setores fundamentais como agricultura, construção e transporte podem registrar aumentos expressivos em volume absoluto.
• Além disso, as transformações são moduladas por características regionais e econômicas, refletindo as diferentes realidades demográficas e tecnológicas de cada região.

7 temas mais discutidos no SXSW 2025

Os 7 temas mais abordados e citados no SXSW 2025 foram:

– Inteligência Artificial (IA): Discussões sobre a integração da IA em diversas áreas, incluindo a apresentação do conceito de “Inteligência Viva” por Amy Webb, que combina IA, biotecnologia e sensores avançados

– Futurismo e 2050: A trilha 2050 explorou tópicos como computação quântica e exploração espacial, visando uma visão geral das próximas décadas da humanidade

– Clima e Sustentabilidade: Tecnologias para cidades inteligentes e sustentáveis foram destacadas, incluindo o uso da IA para planejamento urbano eficiente

– Creator Economy: Análises sobre o futuro das redes sociais e seu impacto na economia criativa foram frequentes

– Longevidade e Biotecnologia: Avanços na biotecnologia para melhorar a qualidade de vida e aumentar a longevidade foram amplamente discutidos

– Saúde Mental e Conexão Humana: Temas como saúde mental e a luta contra a solidão no mundo digital

– Futuro do Trabalho: Debates sobre como as empresas devem se adaptar às mudanças tecnológicas e sociais no ambiente de trabalho

Letramento de Dados

🎲 As ferramentas de GenAI têm um papel fundamental na democratização do letramento de dados, tornando o acesso e a compreensão dos dados mais simples e acessíveis a um público amplo, mesmo para aqueles sem um profundo conhecimento técnico e é aí que está o pulo do gato:

– Interação em Linguagem Natural
– Visualizações Automatizadas
– Redução das Barreiras Técnicas
– Aprendizado e Educação Contínuos
– Agilidade na Tomada de Decisão

Essas características potencializam o letramento de dados nas empresas ao democratizar o acesso à análise e interpretação dos dados, permitindo que usuários de diferentes níveis técnicos explorem informações relevantes por meio de interações em linguagem natural, visualizações intuitivas e insights automatizados, o que contribui para decisões mais informadas e uma cultura data-driven.

Claude 3.7 Sonnet: O Futuro da Inteligência Híbrida em 7 Pontos:

✅ Tipos Disponíveis: O Claude 3.7 Sonnet oferece modos de pensamento padrão e estendido, aumentando sua versatilidade para diferentes tarefas.

✅ Comparação com o Claude 3.5: O Claude 3.7 Sonnet supera o Claude 3.5 em raciocínio, codificação e capacidade de saída, com a adição de um modo de pensamento estendido.

✅ Métricas de Desempenho: O Claude 3.7 Sonnet alcança altas pontuações em benchmarks como GPQA Diamond (84,8%), AIME 2024 (80,0%) e MATH 500 (96,2%).

✅ Comparação com o GPT-4.5: Em geral, supera o GPT-4.5 em vários benchmarks.

✅ Comparação com Modelos da OpenAI: Supera o o1 da OpenAI em raciocínio de nível universitário, mas é igualado pelo o3-mini na resolução de problemas matemáticos.

✅ Comparação com o Grok 3 Beta: Está ligeiramente atrás do Grok 3 Beta em raciocínio de nível universitário, mas significativamente atrás em competições de matemática do ensino médio.

✅ Recursos Principais: Oferece raciocínio híbrido, modo de pensamento estendido e suporte a múltiplos idiomas, tornando-o versátil para codificação, resolução de problemas e geração de conteúdo.

Goku vs Sora

💡 O que é o “Goku”?

O Goku, cujo nome oficial é OmniHuman-1, é um novo modelo multimodal de IA da ByteDance baseado na arquitetura “Rectified Transformer Flow” de aprendizado de máquina profundo, utilizada na maioria dos modelos de difusão modernos para gerar imagens a partir de prompts multimodais.

A maior vantagem dessa arquitetura em relação a transformadores anteriores é que, além de combinar geração integrada de vídeos e imagens, ela possibilita um aprendizado intermodal nos processos de treinamento.

A inovação abre margem para criação de conteúdos audiovisuais extremamente realistas totalmente por IA. Conforme os dados de benchmark divulgados na página do modelo no GitHub, o Goku-T2V tem uma média de desempenho superior a vários outros modelos similares, inclusive o Sora, da OpenAI.

O benchmark está na imagem do post. Link para o Github do projeto.

Soberania Digital na Era da IA

📢 Você já ouviu falar em Soberania Digital?

🌎 Este conceito tem sido utilizado para explicar os altos investimentos dos países em Inteligência Artificial. Dado o poder da IA em disruptar todos os mercados, com consequências ainda não exatamente claras sobre os empregos, a renda e a sociedade no longo prazo, virou uma Questão de Estado possuir autonomia nos diversos aspectos tecnólogicos que envolvem este tema.

📊 Dados do Plano Brasileiro de Inteligência Artificial (PBIA) dizem que os EUA fizeram R$63 Bi de investimentos públicos em IA no período de 2021-2024, com investimentos privados de mais de R$380 Bi. No mesmo período, a China teve R$360 Bi de invetimentos públicos, com mais de R$39 Bi sendo privado.

💵 Só neste ano já tivemos notícias do projeto Stargate do Governo dos EUA em conjunto com Oracle, OpenAI e Softbank (US$500 Bi, faseados em múltiplos anos) e o InvestAI da União Europeia (€200 Bi). No Brasil, o PBIA prevê R$23 Bi no período 2024-2028.

A Era da Implementação da IA já começou, aqueles que investirem com maior eficácia e eficiência irão colher os frutos primeiro. A Máquina de Dados está aqui para te auxiliar nesta jornada de planejamento e execução.

A Cor nos Dados

🎨 Qual a cor das pessoas que trabalham com dados?

📊 Segundo a pesquisa State of Data temos os resultados abaixo:
– Brancos: 66,2%
– Pardos: 21,3%
– Pretos: 6,1%
– Amarelos: 3,1%
– Indígenas: 0,3%

🌎 Agora vamos comparar esses dados com o da população geral segundo o Censo IBGE de 2022 (dentro de colchetes):
– Brancos: 66,2% [43,5%]
– Pardos: 21,3% [45,3%]
– Pretos: 6,1% [10,2%]
– Amarelos: 3,1% [0,4%]
– Indígenas: 0,3% [0,6%]

💻 Análise das informações:
– Brancos possuem uma super-representação
– Amarelos possuem uma super-representação bastante acima do esperado
– Pardos, pretos e indígenas são sub-representados

🧠 Insights:
– A área de dados no Brasil tem um perfil muito mais branco do que a população geral, indicando desigualdades de acesso e permanência.

– Pessoas pardas e pretas estão em menor número na área, o que pode refletir barreiras estruturais como acesso à educação e oportunidades.

– Pessoas amarelas têm uma participação bem acima da média populacional, o que pode estar relacionado a fatores culturais e econômicos.

– Indígenas continuam sendo fortemente excluídos desse mercado.

Acredito que as políticas de DEI baseadas em Dados servem para tentar corrigir as distorções criadas pela sociedade de maneira mais ampla.

Falando sobre Lakehouses

📢 Você já ouviu falar em Data Lakehouses?
Um lakehouse é uma arquitetura de dados que une os pontos fortes dos data lakes e dos data warehouses. Essa abordagem permite armazenar dados em sua forma bruta (como nos data lakes) e, ao mesmo tempo, oferecer as garantias de consistência, governança e desempenho necessárias para análises (como nos data warehouses).

✅ Principais Características:
Armazenamento Unificado
Desempenho Analítico
Schema Enforcement e Evolução
Custo-Benefício
Flexibilidade
Future Proof

🏁 Em resumo, o lakehouse é uma solução moderna que busca eliminar a necessidade de manter repositórios separados para dados brutos e dados processados, simplificando a arquitetura e melhorando a eficiência na ingestão, processamento e análise dos dados.