Home

Update Sem Where #53

Logo da nossa newsletter, chamada Update sem Where

[Briefing]   
Você está lendo a Update Sem Where, nossa newsletter técnica, lançada mensalmente e que contém as principais novidades dos últimos 30 dias no mundo de Data & AI.

Fique agora com a Update Sem Where!

[Principais Trends
– Dicas para tornar seu projeto de Machine Learning um sucesso (link)
– O que usar: um modelo genérico ou vários especializados? (link)
– Como escalar Pandas para grandes datasets (link)
– Crie pipelines utilizando Apache Datafusion (link)
– Utilizando YOLO para detectar objetos em imagens (link)
– O lado negativo dos veículos elétricos (link)
– Mais de 100 vagas na F1rst, do Santander (link)
– Escalando a Eficiência: Visões sobre a DORA 2022 (link)
– Ebook gratuito: Scientific Programming with Python (link)


Big Data & Digitalização

Decorative image showing data related icons

Big Data é um conjunto de técnicas e tecnologias que visam processar, armazenar e analisar grandes quantidades de dados para extrair informações valiosas.

Ela se tornou uma ferramenta importante para a digitalização das empresas porque permite que elas coletem, processem e analisem grandes quantidades de dados em tempo real, o que lhes dá uma visão mais precisa de seus negócios e lhes permite tomar decisões mais informadas.

Algumas das maneiras pelas quais o Big Data revolucionou a digitalização das empresas incluem:

  1. Melhoria da tomada de decisão: o Big Data permite que as empresas coletem, processem e analisem grandes quantidades de dados em tempo real, o que lhes dá uma visão mais precisa de seus negócios e lhes permite tomar decisões mais informadas.
  2. Personalização de produtos e serviços: o Big Data permite que as empresas coletem dados sobre os hábitos de consumo de seus clientes e usem esses dados para personalizar seus produtos e serviços de acordo com as necessidades e preferências individuais de cada cliente.
  3. Otimização de processos: o Big Data permite que as empresas analisem seus processos internos e encontrem maneiras de torná-los mais eficientes, reduzindo custos e aumentando a produtividade.
  4. Melhoria da experiência do cliente: o Big Data permite que as empresas coletem dados sobre as interações dos clientes com seus produtos e serviços e usem esses dados para identificar problemas e melhorar a experiência do cliente.

IA & Inovação Corporativa

A Inteligência Artificial pode afetar a inovação de várias maneiras. Em primeiro lugar, a IA pode ser usada para automatizar tarefas e processos, o que pode liberar tempo para que as pessoas possam se concentrar em outras atividades mais criativas e inovadoras.

Além disso, a IA pode ser usada para analisar grandes quantidades de dados e encontrar padrões e tendências que poderiam não ser evidentes para os seres humanos, o que pode levar a novas descobertas e inovações.

A IA também pode ser usada como uma ferramenta para a criação de novos produtos e serviços. Por exemplo, a IA pode ser usada para projetar novos materiais ou para otimizar processos de produção.

A IA também pode ser usada para criar novas formas de interação com os usuários, como assistentes virtuais ou chatbots.

Em geral, a IA tem o potencial de ser uma força muito poderosa para a inovação, mas é importante lembrar que a IA é apenas uma ferramenta e que os seres humanos ainda são responsáveis por guiar e orientar seu uso.

Update Sem Where #52

Logo da nossa newsletter, chamada Update sem Where

[Briefing]   
Você está lendo a Update Sem Where, nossa newsletter técnica, lançada mensalmente e que contém as principais novidades dos últimos 30 dias no mundo de Data & AI.

Além deste conteúdo, temos também uma newsletter para líderes chamada Executive Summary e o nosso podcast Driven By Data.

Fiquem agora com a Update Sem Where!

[Empreendedorismo & Liderança
– Multitarefa: o jeito mais eficiente de perder dinheiro
– Sobre o mito de que apenas Fundadores Jovens criam grandes empresas
Ferramentas modernas de planejamento aumentam a agilidade
Empresas Filhas da Unicamp faturam quase R$ 20 Bilhões
– Unicamp se destaca em ranking mundial THE
– Artigo do Silvio Meira: Efeitos de Rede
– Ebook do Silvio Meira: Estratégias para um Brasil Figital
Protopia Brasileira: Um estudo sobre a violência política na história brasileira

[Data Engineering & Machine Learning
– Novo site do Recod.AI da Unicamp no ar
– Lançado o Curso de Product Analytics da PM3
– Análise da biblioteca Meta Prophet
– A evolução do Data Engineer
– dbt agora aceita Python
– Como fazer Análise Exploratória para Time Series
– Um whitepaper sobre Modern Data Architectures na AWS

[Amazon Web Services]  
– AWS Athena atualiza engine e adiciona mais de 50 funções SQL
– Sagemaker Multi-Model Endpoint agora suporta GPU
– Sagemaker Auto Model Training agora também possui Grid Search
– Lançado o AWS Neptune: Banco de dados de Grafo e Serverless
Sagemaker Clarify oferece explicabilidade aos resultados de predição

[Microsoft Azure]  
– Lançado o Vision Studio, para desenvolvimento de Computer Vision
AiDice: Ferramenta para detecção de anomalias

[Google Cloud Platform]  
– Veja o que de melhor aconteceu no Google Next 22
– Deep dive no Otimizador de Queries do Spanner
– Clod Dataflow libera ferramenta para benchmark dos seus pipelines
– Fazendo Log Analytics na GCP

[Databases]  
Postgres: Lançado o Postgres 15 com várias novidades (incluindo MERGE)

Executive Summary #09: State of Postgres

Executive Summary Banner

[Briefing]   
Esta é a Executive Summary, a nossa curadoria de conteúdo para executivos e líderes que são shareholders em projetos de Data & AI.

Além deste conteúdo, temos também uma newsletter técnica chamada Update Sem Where e o nosso podcast Driven By Data.

Na edição deste mês da Executive Summary temos apenas 1 tendência: os insights da pesquisa State Of Postgres.

Abaixo, o nosso resumo executivo:

Tendência 01/01
State of Postgres

O que é?
A State of Postgres é uma pesquisa conduzida pela Timescale, empresa por trás do TimescaleDb, que é um banco de dados baseado em Postgres. A pesquisa é global e demonstra a maturidade do ecossistema Postgres (que agora em 2022 está completando 33 anos da sua primeira versão).

Por que isto é interessante?
Estamos falando do banco de dados open source mais robusto e longevo do mundo. Utilizado por startups iniciantes, startups unicórnio (inclusive aqui no Brasil), pequenas, médias e grandes corporações (mais dados aqui). Isto significa que sua empresa pode ter acesso a um banco de dados completo, gratuito e cuja licença open source permite o uso comercial do mesmo.

Como posso colocar em prática?
Incentive o uso do Postgres por sua equipe. A pesquisa State of Postgres demonstra as principais Extensões e Third Party Tools utilizadas, ajudando seu time a construir soluções com toda a qualidade, confiança e maturidade que se espera de um banco de dados.

Update Sem Where #51

Logo da nossa newsletter, chamada Update sem Where

[Briefing]   
Você está lendo a Update Sem Where, nossa newsletter técnica, lançada mensalmente e que contém as principais novidades dos últimos 30 dias no mundo de Data & AI.

Além deste conteúdo, temos também uma newsletter para líderes chamada Executive Summary e o nosso podcast Driven By Data.

Fiquem agora com a Update Sem Where!

[Análise]   
Continuamos a acreditar na educação como ferramenta para a evolução pessoal e profissional (mais sobre este assunto na newsletter anterior).

Com isso, não nos parece coincidência que agora é a vez da AWS oferecer um pacote de subscription para sua plataforma de Digital Training, a AWS Skill Builder (mais sobre os planos aqui).

Reforçamos nossa análise de que, se você deseja entrar para a área de tecnologia, a hora é agora!

Em termos de novidades, a estrela do mês é a sessão de Bancos de Dados, com muitas novidades legais no mundo Postgres!

Boa leitura!

[Data Engineering & Machine Learning
Pirâmide da qualidade de dados
– Como interagem Data Engineers e Data Scientists em um time de alta performance
– As 5 coisas mais difíceis de se fazer em SQL
– Todos os algoritmos de Machine Learning explicados em menos de 1 minutos cada
– Como fazer detecção de movimento em Python
Processamento paralelo de arquivos grandes em Python
– Desmistificando o arquivo Parquet
– Como fazer melhores testes de hipótese
Personas dos usuários das plataformas de dados
Métricas para incerteza em regressões

[Amazon Web Services]  
– Novos planos de assinatura do Skill Builder, a plataforma de treinamentos
– Lançado o Neptune Global Graph Database
– Disponibilizada a Detecção de Anomalia no Devops Guru
– Disponibilizados mais tiers de preço no Lambda

[Microsoft Azure]  
– Azure é declara a nuvem líder pela Gartner
– Análise de Mercado com o Microsoft Threat Intelligence Solutions
– Governança de Dados com o Microsoft Purview
– Lançado o Azure Managed Grafana

[Google Cloud Platform]  
– Nivele suas data skills
Segurança na nuvem para CISOs
– Gerenciando a nuvem com Active Assist

[Databases]  
Postgres: pg_jsonschema faz validação de json
Postgres: Benchmark entre AlloyDB (Pg na Google) e Postgres
Postgres: Particionamento com pg_partman
Postgres: Melhorias nas Functions no PG14
Postgres: Analisador automático de sugestão índices
Postgres: Resultados da pesquisa STATE OF POSTGRES
Postgres: Debugging de problemas com autovacuum
Postgres: dbGate, novo GUI para bancos de dados
Postgres: Bancos de dados de séries temporais, o que são?
Postgres: PAGILA, um banco de dados de exemplo para Postgres

Executive Summary #08: Tudo sobre Data Mesh

Executive Summary Banner

Esta é a Executive Summary, a nossa curadoria de conteúdo para executivos e líderes que são stakeholders em projetos de Data & AI.

Na edição deste mês temos apenas 1 tendência: Data Mesh. Recomendamos a leitura do artigo original da Thoughtworks, que cunhou este termo.

Abaixo, o nosso resumo executivo:

Tendência 01/01
Data Mesh

O que é?
Esta dica é baseada no artigo original da Thoughtworks, que você pode encontrar aqui. Trata-se de uma proposta para mudarmos a forma monolítica de construirmos arquiteturas de dados, que perdura desde os tempos do Data Warehouse.

Por que isto é interessante?
As estruturas de dados modernas (ex: Data Lake), possuem diversas tecnologias para ingestão, armazenamento e uso dos dados, porém a arquitetura em si é geralmente monolítica e tratada por um time centralizado de especialistas. Este tipo de arquitetura não funcionou para a Engenharia de Software no geral, que se modernizou e se especializou em micro-serviços (lado técnico) e squads que gerenciam estes serviços (lado organizacional). Por isso, para que possamos escalar nossas estruturas de dados, temos que aplicar os mesmos conceitos a elas.

Como posso colocar em prática?
Leia o artigo para maiores detalhes, porém de maneira objetiva: é necessário que cada Domínio cuide de seus próprios dados, tanto de maneira operacional (OLTP) quanto de maneira analítica (OLAP). Aqui cabe a filosofia da Amazon Web Services: cada serviço construído deve servir como um bloco, que poderá sustenar a criação de novos serviços a partir destes.


Update Sem Where #50

Logo da nossa newsletter, chamada Update sem Where

[Análise]   
Não é surpresa para ninguém que o mercado de tecnologia possui falta de mão de obra qualificada. E não é apenas no Brasil!

A crescente digitalização das empresas (em parte impulsionada pela pandemia) e a grande tendência de permitir o trabalho remoto (também em grande parte impulsionada pela pandemia), fez com que a competição por talentos, antes baseada na localização, se torna-se uma luta global e desigual por talentos.

Global pois remota e desigual pois, com o real desvalorizado frente a outras moedas, fica muito fácil para empresas extrangeiras conseguirem atrair candidatos com salários exorbitantes, se convertidos para o Real, mas que na moeda de origem, podem representar menos do que se pagaria a um profissional morando naquele país. Ganha-ganha para quem contrata e para quem é contratado.

No Brasil temos como defesa, e aqui com um tom de ironia, o fato de que cerca de 95% da população não fala inglês, que é a língua utilizada pelas empresas que contratam remotamente, mesmo que não sendo Norte-Americanas ou Inglesas. Sabe quando na entrevista de emprego te perguntam um defeito e você pensa em responder um defeito que seja uma qualidade (alô “perfeccionismo”)? Então, é mais ou menos por aí.

Porém, internamente, temos nossa própria batalha de talentos. Por isso, cada vez mais as empresas investem em cursos de formação, já visando contratar os com melhor desempenho.

Só neste mês temos mais de 5 mil vagas para cursos, vindas de empresas como Microsoft, Itaú e ciandt.

Não fique de fora. O mercado de tecnologia está aquecido e, se você planeja trocar de área para entrar na tecnologia, o momento é agora.

“Ah, mas tecnologia não é só para geeks?”, pode perguntar uma pessoa qualquer. Não, não é. Assim como a Medicina, a área de Tecnologia possui diversas especializações, indo de Vendas até Fabricação de Hardware, passando por Codificação, Gestão de Projetos, etc.

Não é um mercado fácil, pois você tem que estar sempre se atualizando. Mas, nada que vale a pena na vida é fácil. E é melhor enfrentar desafios estando empregado e, possivelmente, sendo bem pago, do que o contrário.

Boa leitura e boa sorte!

[Data Engineering & Machine Learning
Tag-based access control for modern data architectures
– Construa uma Arquitetura Data Mesh com AWS Lake Formation e Glue
– Release do Airflow 2.3.0
PyCaret 3.0 lançado!
MLOps em 10 minutos
– Microsoft oferece 5 mil vagas gratuitas em capacitação
– ciandt abre vagas para curso gratuito de capacitação
– Itaú oferece vagas gratuitas para curso de capacitação
Operacionalizando Machine Learning em 10 passos
PyDon’ts: Ebook com melhores práticas para codificação em Python

[Amazon Web Services]  
– Agora é possível criar Jobs Visuais no AWS Glue Studio
AWS Glue Interactive Sessions permite o uso de notebooks no Glue
– AWS Athena adiciona conectores aos principais concorrentes
– Redshift agora possui integração com Microsoft Azure AD e PowerBI
– AWS MSK lançado, tornando o Kafka As A Service disponível

[Microsoft Azure]  
– Utilize a Plataforma Power para construir soluções Low Code
– Lançado o Azure Health Data Services
– Microsoft libera a Feature Store do Linkedin

[Google Cloud Platform]  
– Lançada a nova plataforma AlloyDb
– Links para as diversas sessions workshops gravadas no Google I/O
– Resumo de algumas novidades anunciadas no Google I/O
– Utilização de Machine Learning para melhorar o trabalho remoto
– Lançado o Big Query BI Engine!
– GCP lança o whitepaper The Future of Data
– Participe do Google Cloud Applied ML Summit
– Google lança o Cost Esmimator chamado GKE

[Databases]  
Postgres: Parquet e Postgres em um Data Lake
Postgres: Monitoramento de query com pg_stat_statements
Postgres: Entenda sua carga com pg_stat_monitor
Postgres: Um guia para migrações com zero downtime
Postgres: Analisando o IO do Postgres
Postgres: Fazendo tuning do auto-vacuum