Archive February 19, 2025

A Cor nos Dados

🎨 Qual a cor das pessoas que trabalham com dados?

📊 Segundo a pesquisa State of Data temos os resultados abaixo:
– Brancos: 66,2%
– Pardos: 21,3%
– Pretos: 6,1%
– Amarelos: 3,1%
– Indígenas: 0,3%

🌎 Agora vamos comparar esses dados com o da população geral segundo o Censo IBGE de 2022 (dentro de colchetes):
– Brancos: 66,2% [43,5%]
– Pardos: 21,3% [45,3%]
– Pretos: 6,1% [10,2%]
– Amarelos: 3,1% [0,4%]
– Indígenas: 0,3% [0,6%]

💻 Análise das informações:
– Brancos possuem uma super-representação
– Amarelos possuem uma super-representação bastante acima do esperado
– Pardos, pretos e indígenas são sub-representados

🧠 Insights:
– A área de dados no Brasil tem um perfil muito mais branco do que a população geral, indicando desigualdades de acesso e permanência.

– Pessoas pardas e pretas estão em menor número na área, o que pode refletir barreiras estruturais como acesso à educação e oportunidades.

– Pessoas amarelas têm uma participação bem acima da média populacional, o que pode estar relacionado a fatores culturais e econômicos.

– Indígenas continuam sendo fortemente excluídos desse mercado.

Acredito que as políticas de DEI baseadas em Dados servem para tentar corrigir as distorções criadas pela sociedade de maneira mais ampla.

Falando sobre Lakehouses

📢 Você já ouviu falar em Data Lakehouses?
Um lakehouse é uma arquitetura de dados que une os pontos fortes dos data lakes e dos data warehouses. Essa abordagem permite armazenar dados em sua forma bruta (como nos data lakes) e, ao mesmo tempo, oferecer as garantias de consistência, governança e desempenho necessárias para análises (como nos data warehouses).

✅ Principais Características:
Armazenamento Unificado
Desempenho Analítico
Schema Enforcement e Evolução
Custo-Benefício
Flexibilidade
Future Proof

🏁 Em resumo, o lakehouse é uma solução moderna que busca eliminar a necessidade de manter repositórios separados para dados brutos e dados processados, simplificando a arquitetura e melhorando a eficiência na ingestão, processamento e análise dos dados.

Google Astra

⚡ O projeto Astra do Google Deepmind (a divisão de IA do Google), é a maneira como acredito que a IA fará uma diferença real na vida das pessoas (no CPF mesmo, não no mundo corporativo, que terá muitos outros impactos). A interação de um agente que, através de áudio e vídeo, consegue interagir com o ambiente é uma maneira muito natural e muito útil para o dia-a-dia.

🌎 O Astra foi anunciado no Google I/O de 2024 e agora está no modo de testes, infelizmente apenas para usuários Android de EUA, Canadá e Reino Unido.

📰 Na reportagem abaixo do MIT Tech Review, vocês podem acompanhar mais detalhes de como o Astra funciona:

https://mittechreview.com.br/google-projeto-astra-ia/

Orquestração de LLMs

📢 Já ouviu falar em LangChain?

🧠 O LangChain é uma estrutura que facilita a orquestração de chamadas a diferentes modelos de linguagem (LLMs), permitindo que você integre e gerencie múltiplos LLMs de forma eficiente. Ele oferece várias funcionalidades que ajudam nesse processo:

– Abstração de Modelos: O LangChain fornece uma camada de abstração que permite que você trabalhe com diferentes LLMs (como GPT-3, GPT-4, Claude, etc.) de maneira uniforme. Isso significa que você pode trocar de modelo sem precisar reescrever grande parte do código.

– Encadeamento de Chamadas: Você pode criar cadeias (chains) de chamadas a diferentes LLMs, onde a saída de um modelo pode ser usada como entrada para outro. Isso é útil para tarefas complexas que requerem múltiplos passos de processamento.

– Gerenciamento de Contexto: O LangChain ajuda a manter o contexto entre diferentes chamadas a LLMs, o que é crucial para tarefas que envolvem conversas ou processamento de texto contínuo.

– Integração com Ferramentas Externas: Além de LLMs, o LangChain permite a integração com outras ferramentas e APIs, como bancos de dados, APIs de busca, e sistemas de armazenamento, o que amplia as possibilidades de uso.

– Modularidade: A estrutura é altamente modular, permitindo que você crie pipelines personalizados que combinam diferentes LLMs e ferramentas conforme necessário.

– Prompt Management: O LangChain facilita a gestão de prompts, permitindo que você crie, reutilize e otimize prompts para diferentes LLMs.

– Memória: Ele oferece suporte a diferentes tipos de memória, como memória de curto prazo e memória de longo prazo, para manter o contexto entre interações.

A revolução da IA nos Marketplaces

📈 Ontem, o Fabricio Bloisi publicou um relatório muitíssimo interessante sobre a revolução da IA nas plataformas de Ecommerce. O relatório é profundo e possui várias análises muito interessantes.

💻 Escolhi salientar aqui, na análise de hoje, o slide que mostra o impacto dos marketplaces em cada Setor, separando o quanto é transacionado de maneira digital e o quanto ainda é feito de maneira offline.

⛓️ Tecnologias como IA e Blockchain podem ajudar a digitalizar transações que ainda são feitas de maneira offline nesses Setores.

Alibaba Qwen 2.5 Max

📢 Já ouviu falar na Arquitetura MoE? A Mixture Of Experts (MoE) é uma arquitetura utilizada em GenAI para criar modelos que, de maneira simplificada, são um “conjunto de modelos especialistas” e isto possibilita a diminuição na complexidade de treinamento do modelo e também sua escalabilidade operacional.

🧑‍💼 Uma maneira didática de separar um modelo MoE (ex.: Alibaba Qwen 2.5 Max, DeepSeek V3) de um modelo Denso (OpenAI 4o, o1) é a seguinte: os modelos Densos são como uma pessoa muito inteligente que sabe sobre muitos assuntos, já um MoE é como um time de especialistas onde cada um sabe apenas sua parte.

⚙️ Do ponto de vista operacional é mais fácil treinar e executar um MoE pois você pode treinar, adicionar ou executar partes específicas do modelo, sem precisar ativar o modelo como um todo e daí vem o grande ganho de escala em comparação aos modelos Densos. Do ponto de vista prático, estes modelos tem conseguidos resultados extraordinários contra seus concorrentes. Veja na imagem a comparação entre eles