Archive March 26, 2025

Acurácia de LLMs

📊 Em um projeto recente, tive a oportunidade de testar diversos LLMs para um case no setor de Marketing de uma empresa na área de Notícias e Geração de Conteúdo.

Irei explorar o case em mais detalhes futuramente, mas apenas para contextualizar, estávamos classificando cerca de 2.000 notícias criadas nos últimos 24 meses de acordo com um novo sistema de classificação de conteúdo proposto pela empresa.

Utilizamos o AWS Bedrock para esta tarefa, o que nos permitiu comparar diversos modelos em cima de um mesmo pipeline.

Para além da performance dos modelos, outras questões como revisão do sistema de classificação, comparação com concorrentes, custo e etc também foram levantadas e serão abordadas posteriormente.

Agora quero apenas trazer para vocês o desempenho de cada modelo em nosso teste, com a acurácia baseada em um dataset de treino já rotulado.

Para termos um benchmark, comparamos a performance do modelo com a de um time de especialistas da empresa que também realizou uma classificação do dataset de treino, sem saber a resposta correta.

AWS Bedrock

🧑‍🏭 Estou usando o AWS Bedrock e estou gostando muito!

Para quem já está trabalhando com IA (a.k.a. Machine Learning, Estatística, etc) há alguns anos, é incrível ver a evolução das ferramentas e de como isso afeta a produtividade, a prototipagem e a entrega de soluções.

Tenho trabalhado nos últimos meses com o AWS Bedrock e a plataforma não para de me supreender. Eis alguns motivos:

– Existe um grande catálogo de modelos LLMs disponíveis e já plugados à plataforma

– Existem ferramentas de sandbox para você testar e comparar modelos rapidamente, sem precisar de grandes configurações

– Existem configurações mais avançadas, quando você precisa extrair o máximo de um modelo

– Existe controle e versionamento de prompt, para você testar a performance de diversos prompts em cima dos mesmos dados

– É possível construir Flows com múltiplas chamadas de prompt, realizando tarefas complexas em um ambiente drag-and-drop

– É possível interagir com estes Flows através de chamadas da API do Bedrock, tornando o acesso possível a partir de qualquer software, integrando assim o poder das múltiplas LLMs ao seu produto

Futuro do Trabalho

💻 O avanço da Inteligência Artificial faz as pessoas se questionarem: “o que acontecerá com meu emprego?”

Como este é um sentimento bastante comum, diversas pesquisas sobre o assunto foram realizdas.

Uma delas é o relatório “Future of Jobs” do World Economic Forum. Os principais impactos previstos são:

Criação e Eliminação de Empregos:
• Até 2030, prevê-se a criação de cerca de 170 milhões de novos empregos, representando 14% do total de empregos atuais.
• Ao mesmo tempo, estima-se a eliminação de aproximadamente 92 milhões de empregos (8% do total), resultando em um crescimento líquido de 78 milhões de postos de trabalho (7% de aumento).

Dinâmica dos Papéis Profissionais:
• Papéis impulsionados por tecnologias emergentes — como especialistas em Big Data, FinTech, AI e desenvolvedores de software — estão entre os que mais crescem.
• Empregos relacionados à transição verde, como engenheiros ambientais e especialistas em energias renováveis, também apresentam forte crescimento.
• Em contrapartida, funções administrativas (por exemplo, caixas, atendentes e operadores de entrada de dados) estão entre os que mais declinam, principalmente devido à automação e à digitalização dos processos.

Impactos Diferenciados por Setor e Região:
• O crescimento ou declínio dos empregos varia conforme o setor: setores fundamentais como agricultura, construção e transporte podem registrar aumentos expressivos em volume absoluto.
• Além disso, as transformações são moduladas por características regionais e econômicas, refletindo as diferentes realidades demográficas e tecnológicas de cada região.

7 temas mais discutidos no SXSW 2025

Os 7 temas mais abordados e citados no SXSW 2025 foram:

– Inteligência Artificial (IA): Discussões sobre a integração da IA em diversas áreas, incluindo a apresentação do conceito de “Inteligência Viva” por Amy Webb, que combina IA, biotecnologia e sensores avançados

– Futurismo e 2050: A trilha 2050 explorou tópicos como computação quântica e exploração espacial, visando uma visão geral das próximas décadas da humanidade

– Clima e Sustentabilidade: Tecnologias para cidades inteligentes e sustentáveis foram destacadas, incluindo o uso da IA para planejamento urbano eficiente

– Creator Economy: Análises sobre o futuro das redes sociais e seu impacto na economia criativa foram frequentes

– Longevidade e Biotecnologia: Avanços na biotecnologia para melhorar a qualidade de vida e aumentar a longevidade foram amplamente discutidos

– Saúde Mental e Conexão Humana: Temas como saúde mental e a luta contra a solidão no mundo digital

– Futuro do Trabalho: Debates sobre como as empresas devem se adaptar às mudanças tecnológicas e sociais no ambiente de trabalho

Letramento de Dados

🎲 As ferramentas de GenAI têm um papel fundamental na democratização do letramento de dados, tornando o acesso e a compreensão dos dados mais simples e acessíveis a um público amplo, mesmo para aqueles sem um profundo conhecimento técnico e é aí que está o pulo do gato:

– Interação em Linguagem Natural
– Visualizações Automatizadas
– Redução das Barreiras Técnicas
– Aprendizado e Educação Contínuos
– Agilidade na Tomada de Decisão

Essas características potencializam o letramento de dados nas empresas ao democratizar o acesso à análise e interpretação dos dados, permitindo que usuários de diferentes níveis técnicos explorem informações relevantes por meio de interações em linguagem natural, visualizações intuitivas e insights automatizados, o que contribui para decisões mais informadas e uma cultura data-driven.

Claude 3.7 Sonnet: O Futuro da Inteligência Híbrida em 7 Pontos:

✅ Tipos Disponíveis: O Claude 3.7 Sonnet oferece modos de pensamento padrão e estendido, aumentando sua versatilidade para diferentes tarefas.

✅ Comparação com o Claude 3.5: O Claude 3.7 Sonnet supera o Claude 3.5 em raciocínio, codificação e capacidade de saída, com a adição de um modo de pensamento estendido.

✅ Métricas de Desempenho: O Claude 3.7 Sonnet alcança altas pontuações em benchmarks como GPQA Diamond (84,8%), AIME 2024 (80,0%) e MATH 500 (96,2%).

✅ Comparação com o GPT-4.5: Em geral, supera o GPT-4.5 em vários benchmarks.

✅ Comparação com Modelos da OpenAI: Supera o o1 da OpenAI em raciocínio de nível universitário, mas é igualado pelo o3-mini na resolução de problemas matemáticos.

✅ Comparação com o Grok 3 Beta: Está ligeiramente atrás do Grok 3 Beta em raciocínio de nível universitário, mas significativamente atrás em competições de matemática do ensino médio.

✅ Recursos Principais: Oferece raciocínio híbrido, modo de pensamento estendido e suporte a múltiplos idiomas, tornando-o versátil para codificação, resolução de problemas e geração de conteúdo.