2021 - Máquina de Dados

Update Sem Where [Dezembro/21]

[Análise]
E finalmente chegamos ao fim de mais um ano. Se 2021 (se) foi melhor do que 2020, também não podemos nos esquecer que ainda foi um ano com mais desafios ligados à pandemia do que gostaríamos.

Em Dezembro de 2021, ao que me parece, o sentimento da população é muito parecido com o sentimento que existia (a Gestalt) de Dezembro de 2020. À época também acreditávamos ter vencido o vírus, mas todos sabem que a história não foi assim.

Porém, a tendência agora parece ser realmente diferente, a cobertura vacinal ao redor do globo nos dá motivos para acreditar que sim, 2022 será mais parecido com 2019 do que com 2020.

No mundo da tecnologia, dentro do nicho de Dados, nossas apostas vão para projetos voltados cada vez mais para Engenharia de Dados e Big Data. A digitalização das empresas nos últimos 2 anos fizeram com que várias empresas passassem a usar sistemas e a gerar dados, que antes não existiam. Com isso, surge a necessidade de uma cultura que pare para olhar estes dados para que se possa tomar decisões com eles.

Porém, antes disso, a casa terá que ser arrumada. Unir dados de diferentes fontes, criar um catálogo de dados, cuidar da qualidade deles e possui um ambiente com capacidade elástica para processamento serão os desafios das empresas nos próximos anos.

E estaremos junto com você nesta jornada!

Boa leitura!

[Machine Learning & Data Engineering]
– Guia prático para ARIMA com PyCaret
– Todos os testes estatísticos para uma boa Regressão Linear
– Como fazer tuning de seu modelo de XGBoost
– Dez tendências de AI para 2022
– Por quê Machine Learning Engineers estão crescendo mais do que Data Scientists?
– Design Patterns para Machine Learning Pipelines
– Introdução ao Shap em Python
– A importância do pensamento Bayesiano no dia-a-dia
– Aumentando a acurácia de Computer Vision no Tensorflow
– “Dos and Don’ts” de um Data Scientist

[Amazon Web Services]
– Novas Features para o comando COPY no Redshift, para facilitar o dia do Data Engineer
– Gerenciando dados pessoais de maneira automatizada na AWS
– AWS anuncia reduçãode até 31% nos custos de algumas classes do S3
– Criando uma Arquitetura de Data Mesh (Pub/Sub) na AWS
– AWS oferece serviço de consultoria para migração de dados com o Data Migration Accelerator
– Os benefícios de utlizar “in-memory” cache

[Microsoft Azure]
– Como implementar AI responsavelmente
– Microsoft é definida como líder no Quadrante Gartner de DBMSs
– Azure aumenta seu conteúdo para processamento Geoespacial
– 5 Razões para usar o Azure Databricks

[Google Cloud Platform]
– Melhores posts sobre AI na GCP em 2021
– Tendências que a GCP levantou junto a seus clientes em 2021
– Como lidar com o Log4J na GCP
– Principais novidades da GCP em Dezembro
– Utilizando o Contact Center AI para melhorar o relacionamento com clientes

[Postgres]
– Lançada nova versão do DBComparer, que analise sincroniza o DDL de diferentes Postgres
– Nova versão lançada do Conversor de DB MySQL to Postgres

[MySQL]
– Implementando soluções de Disaster Recovery com MySQL
– Recap da Oracle Database World
– Usando o HeatWave para acelerar a criação de Insights

[MongoDB]
– Sinais de que sua Arquitetura de Dados está limitando seu crescimento: Parte 1
– Sinais de que sua Arquitetura de Dados está limitando seu crescimento: Parte 2
– Análise de dados com Interactive Filtering
– Exportando queries usando o VS Code

Podcast Driven By Data #001

É com muito orgulho que estamos lançando o nosso podcast, chamado Driven By Data!!!

Este podcast será em formato de “drops” (curtos e informativos), trazendo tendências, novidades ou qualquer assunto relevante no mundo de Data: Big Data, Analytics, Machine Learning, BI, etc.

O episódio piloto já está em nosso canal do YouTube:
https://www.youtube.com/watch?v=uw4AzMyob4g&t=17s

Gostou? Então assine o canal e deixe seu like!

Executive Summary – Dezembro/2021

Esta é a Executive Summary, a nossa newsletter para executivos e líderes que gostam de contar com uma curadoria de conteúdo e preferem um formato para ser consumido de maneira objetiva.

Na newsletter de hoje temos 3 tendências muito interessantes para suas estratégias de transformação digital:

Tendência 01/03
Produtos de Dados

O que são?
Entender a diferença entre projeto e produto pode ajudar a melhor gerenciar os produtos de dados que uma empresa possui.

Por que isto é interessante?
Para cultivar uma cultura data-driven corporativa.

Como posso colocar em prática?
O post do Itaú sobre o assunto em seu Medium é muito interessante.

Tendência 02/03
Seriam as plataformas de “Self Service BI” uma miragem?

O que é?
Embora pareça fornecer uma visão clara sobre seu significado, a expressão “Self Service BI” não é tão clara assim na prática. Poucas ferramentas (se é que existem), podem de fato ser “Self Service” para os key users corporativos que não são técnicos.

Por que isto é interessante?
A saída para este aparente paradoxo é que as equipes devem investir em possuir analistas de dados em seus times, afim de auxiliar o business a identificar e construir as métricas mais adequeadas.

Como posso colocar em prática?
Este artigo na KDNuggets traz uma dissertação (não exaustiva) sobre o tema.

Tendência 03/03
Data Drifting

O que é?
Um modelo de machine learning, ao ser treinado, está identificando um padrão nos dados apresentados. Ao ser colocado em produção, é comum que o padrão existente em treinamento comece a mudar, devido a própria natureza dos negócios, com isso o modelo perde sua eficácia.

Por que isto é interessante?
Criar bons modelos de machine learning e integrá-los de maneira efetiva em produtos ou processos é um trabalho desafiador. Mas o não monitoramento de Data Drifting ao colocar o modelo em produção pode resultar em perdas para o negócio.

Como posso colocar em prática?
O modelo precisa ser monitorado e, se necessário, retreinado. Neste aritgo, discultem-se diversos aspectos sobre o tema.

Data News – Novembro / 2021

[Análise]
Em um mundo que está, cada vez mais, deixando a pandemia no passado, temos notado a volta dos eventos presenciais, ainda que se valendo de regras sanitárias, porém este cenário já sinaliza uma perspectiva de melhoria para os próximos meses.

Com a recuperação das economias ao redor do mundo, devemos ver mais empresas adotando estratégias “figitais”, aproveitando as plataformas digitais que construíram nos últimos anos, para somar com a experiência da presença física.

Aproveite as novidades deste mês para trazer melhorias para seu ambiente, ajudando sua empresa a melhorar iniciativas internas ou a desenvolver novos projetos.

Boa leitura!

[Machine Learning & Data Engineering]
– Lançado o Blog do Itaú Data no Medium
– Usando Faker para criar dados sintéticos
– Transformando ETL em ELT
– Uma análise do cenário de Self Service BI
– Monitorar ou Não Monitorar um Modelo: Eis a questão

[Amazon Web Services]
– Amazon libera diversos cursos (que antes eram pagos) de forma gratuita
– Como construir um Data Vault no Redshift
– Lançado o conector SQLAlchemy Redshift
– Restringindo o acesso ao Quicksight com base no IP
– Fazendo performance benchmark com HammerDB
– Real time analytics com AWS TimeStream
– Utilizando Data Wrangler para preparação dos dados
– Compartilhando os dashboards do CloudWatch usando Single Sign On

[Microsoft Azure]
– Quatro maneiras de integrar Inteligência Artifical com IoT
– Proteção de dados com Azure Confidential Computing
– Templates de soluções disponibilizados para o Azure Synapse Analytics

[Google Cloud Platform]
– Lançado o Prometheus as a service
– Big Query table snapshots estão disponíveis
– Big Query Omni permite Analytics cross-clouds

[Postgres]
– Conheça o pg_dirtyread para ler registros já deletados
– Conheça o Odyssey, um Connection Pool com integração de LDAP
– Melhore o monitoramento com pg_metrics e pg_dash
– Implemente statements rollback usado o pg_statement_rollback

[MySQL]
– Webinar de laboratório prático de MySQL oferecido pela Oracle
– Webinar sobre Disaster Recovery oferecido pela Oracle

[MongoDB]
– Lançada uma REST API para interação com o MongoDB Atlas
– Facet Operator aumenta em 100x a performance de consultas

Executive Summary – Novembro/2021

Esta é a Executive Summary, a nossa newsletter para executivos e líderes que querem se informar sobre o que é relevante, que gostam de contar com uma curadoria de conteúdo e preferem um formato para ser consumido de maneira objetiva.

Na newsletter de hoje temos 3 tendências muito interessantes para suas estratégias de transformação digital:

Tendência 01/03
Plataformas No-Code/Low-Code

O que são?
Plataformas (geralmente online), que permitem a construção de apps (mobile ou web) ou workflows, usando nenhum (no-code) ou pouco (low-code) código.

Por que isto é interessante?
Permite a digitalização de processos sem que um grande investimento tenha que ser feito. Permite a criação de protótipos para validação de idéias, projetos e produtos.

Como posso colocar em prática?
Basta ter uma conta em uma destas plataformas. Aqui no Brasil temos a Pipefy (Disclaimer: post não comercial).

Tendência 02/03
AWS Q – Business Intelligence através de linguagem escrita

O que é?
A Amazon Web Services (AWS) possui uma ferramenta de dashboards chamada Quicksight. Esta suíte de dashboards agora possui uma ferramenta chamada Q (que vem da palavra “Questions”), que permite a criação automática de respostas através de perguntas (por exemplo: Qual produto vendeu mais em 2021 por Estado?).

Por que isto é interessante?
O Quicksight Q permite que qualquer pessoa (técnica ou não) faça perguntas, obtendo imediatamente as respostas que são fornecidas via gráficos ou métricas. Ou seja, não é necessário pedir para que alguém da equipe de BI gere um novo gráfico com um corte diferente dos dados, a ferramenta faz isso automaticamente.

Como posso colocar em prática?
Basta ler a documentação sobre como ativar a ferramenta, a modelagem inicial dos dados ainda precisa ser feita por um Analista de BI.

Tendência 03/03
Calculando sua pegada de carbono na Google Cloud

O que é?
A Google Cloud lançou uma ferramenta que calcula a pegada de carbono gerada pela sua empresa na Google Cloud (ou seja, através dos serviços que você utiliza na GCP).

Por que isto é interessante?
As pautas ESG têm avançado e a utilização de energia elétrica pelas ferramentas digitais (e, portanto, sob responsabilidade do CIO ou CDO) é uma fonte de gastos econômicos com impactos ambientais. Sua redução, e a correta mensuração disto, fará parte do accountability dos executivos em um futuro próximo.

Como posso colocar em prática?
“Aquilo que não é medido, não pode ser gerenciado”, já dizia Deming. A mensuração é um passo inicial, para que ações possam ser tomadas e seus resultados medidos.

Data News – Outubro/2021

[Análise]
Neste mês temos várias novidades bacanas, daquelas que não chegam a ser disruptivas mas que são muito úteis ao nosso trabalho no dia-a-dia.

Sem dar spoiler da lista toda (afinal, se está aqui é porque merece sua atenção), é bom ressaltar o lançamento do Postgres 14, já que a comunidade do PostgreSQL sempre trabalha forte no lançamento de cada versão.

Em um ano em que, além da pandemia, o mundo está sentindo os efeitos das mudanças climáticas de maneira cada mais forte, é com bons olhos ver que a Google Cloud está lançando ferramentas para ajudar você a medir o seu impactor ambiental.

Afinal, aquilo que não é medido, não é gerenciado!

[Postgres]
– Lançado o PostgreSQL 14! Link
– Nova versão do pgtt, que permite o uso de tabelas temporárias globais
– Nova versão do pgFormatter para formatar código SQL disponível
– Audite a performance do Postgres com o pgCluu
– Full text search em várias línguas com o PGroonga

[MySQL]
– Como importar dados do Redshift para o MySQL. Link
– Como importar dados do Postgres para o MySQL. Link
– Fazendo deploy de Apache Superset com MySQL. Link
– Os diferentes tipos de Explain. Link

[MongoDB]
– Tutorial de NoCode usando MongoDB. Link

[Amazon Web Services]
– Step Functions agora suporta 200 serviços da AWS
– Lançado o Redshift Query Editor V2
– Quicksight Q: Descubra métricas fazendo perguntas em linguagem natural
– MSK Connect para mandar e receber dados do Apache Kafka
– S3 Intelligent Tiering otimiza os custos sem perder performance
– Serviço gerenciado do Grafana agora está GA

[Microsoft Azure]
– Data Governance com Azure Purview
– Compartilhando dados com Azure Data Share
– Realizando AIOps com Gandalf

[Google Cloud Platform]
– Aprenda com o Google Distributed Cloud
– Novo serviço de DocAI lançado
– Desenvolvendo produtos com Intelligent Products Essentials
– Lançadas ferramentas para medir o impactor ambiental. Link

[Machine Learning & Data Engineering]
– Introdução ao Auto Machine Learning. Link
– Como encontrar pontos fracos em seu modelo. Link
– Caminho de aprendizagem para um “Full Stack Data Scientist“

Máquina de Dados Convida: LGPD com Lucas Neves

O programa Máquina de Dados Convida de Agosto, terá o Advogado Especialista em Direito Digital Lucas Neves, proprietário da LPN Digital, falando sobre Lei Geral de Proteção de Dados, a famosa LGPD.

Lucas Pereira Neves é Advogado Esp. em Direito Digital, Proteção de Dados (LGPD/GDPR) e Compliance. Encarregado (DPO) Certificado. Auditor interno ISO 27001 Certificado. Pós Graduando em Adv. Contratual e Resp. Civil. Palestrante e Professor nas áreas de Direito Digital e Proteção de Dados. Experiência de atuação jurídica com empresas de grande porte e multinacionais. Membro da International Association of Privacy Professionals – IAPP.

Assista, deixe um like e compartilhe:
https://www.youtube.com/watch?v=MtRmvkc7q-w

campdata convida SiDi:Implementação de pipelines de machine learning em mobile

A Máquina de Dados, através do programa Campdata Convida, orgulhosamente recebe um dos maiores institutos de tecnologia do Brasil, nossos conterrâneos do SiDi, que nasceram através da Samsung!

O SiDi é um dos maiores institutos de ciência e tecnologia do Brasil e, com um time de SiDiers que não para de crescer, já estão em Campinas e Recife, os maiores parques tecnológicos e de inovações do Brasil. Em quase 20 anos de história, eles se especializaram em solucionar problemas e trazem na bagagem mais de 1.000 projetos que impactam a vida de milhões de pessoas, levando inovação e fazendo o futuro acontecer agora.

Neste webinar receberemos Cesar Christian Castelo Fernandez, Otavio Henrique Barbosa Torres e Weld Lucas Cunha para falarem sobre Implementação de pipelines de machine learning em plataformas mobile.

Veja este e outros vídeos em nosso canal do YouTube:
https://www.youtube.com/watch?v=GgckPsjwsHg

Workshop de Apache Beam

Venha conosco aprender sobre o Apache Beam, moderna ferramenta para Data Pipelines!

Link para o código usado na apresentação: https://github.com/rfribeiro/beam-workshop-campdata

Obrigado Rafael Ribeiro (Data Scientist na KaBuM!) por compartilhar este conhecimento conosco!

Pra quem perdeu, pode assistir no nosso canal do YT:

Digerindo dados com Apache NiFi

Ontem tivemos um dos melhores conteúdos em língua portuguesa sobre o Apache NiFi!

Ferramenta fantástica, que junta a facilidade do trabalho em interface visual com a capacidade de escalar e distribuir carga, tão necessária no mundo de Big Data.

Obrigado Eliézer Zarpelão por compartilhar este conhecimento conosco!

Pra quem perdeu, pode assistir no nosso canal do YT:

Archive December 21, 2021