Home

Update Sem Where [Março/2022]

Logo da nossa newsletter, chamada Update sem Where

[Análise]   
O mercado de Data possui importantes relatórios lançados ao longo do ano.

Neste mês, tivemos o lançamento de dois deles: Artificial Intelligence Index Report (escopo global) e o State of Data (escopo Brasil). Aproveite e se atualize sobre o estado do mercado!

O ritmo de novidades tecnológicas diminuiu um pouco, com as empresas guardando o seu melhor para os diversos eventos ao longo do ano, ótimo momento para reler as últimas newsletters e implementar as mudanças que ficaram no backlog.

Boa leitura!

[Big Data & Machine Learning
From zero to hero: Uma jornada de Data Analyst a Engenheiro Sênior
– Lançado o relatório Artificial Intelligence Index Report 2022
Indústria 4.0 é muito mais do que Fábrica 4.0
State of Data Brasil lançado
– Usando AutoEncoders em Redes Neurais Não Supervisionadas
– Descobrindo Partículas de Informação com a Teoria de Shannon
– O que Data Scientists podem aprender com Economistas
– Características de Séries Temporais
KPIs que todo Time de Dados deveria ter

[Amazon Web Services]  
– Lançado o novo AWS QuickSight Community
AWS Lambda agora suporta 10GB de storage efêmero
– PostgreSQL RDS agora suporte FDW para MySQL
– RDS MySQL & PostgreSQL MultiAZ Deployment

[Microsoft Azure]  
– Lançado o Azure Health Data Services para execução de algoritmos de IA
– Microsoft Azure nomeada como Líder no Quadrante da The Forrester
– Introduzindo o Azure Synapse para o Dataverso
– Novidades na PaaS Azure Stream Analytics

[Google Cloud Platform]  
Federated Learning na GCP
– Uso de NLP na Google Cloud para geração de insights
– Criado repositório de análise de log, com foco em Dados e Segurança
Economizando com Cloud Spanner
– Pipeline de dados do SAP para BigQuery com Cloud Cortex

[Databases]  
Flyway: Versionamento de objetos e criação de scripts
Postgres: Usando plprofiler para testar performance do banco de dados
Postgres: Fazendo tuning de max_wal_size
Postgres: Realizando sharding do banco de dados
Postgres: Automatizando testes no banco de dados com pgTAP
Postgres: Análise de uso de JSON em Postgres

Executive Summary [Fevereiro/2022]

Esta é a Executive Summary, a nossa newsletter para executivos e líderes que gostam de contar com uma curadoria de conteúdo e preferem um formato para ser consumido de maneira objetiva.

Na newsletter de hoje temos 2 tendências muito interessantes para suas estratégias de transformação digital:

Tendência 01/02
Design Patterns em Big Data

O que é?
Existem milhares (talvez milhões) de fontes de dados. Existem centenas (talvez milhares) de tecnologias que processam dados. Portanto existem milhões de possibilidades na construção de pipelines de coleta e processamento de dados. Porém, as diversas opções são, na verdade, parte de um número menor e arquetípico de modos de processamento dos dados.

Por que isto é interessante?
Entender os tipos de padrões existentes para o processamento de dados, pode ajudar as equipes técnicas a criar soluções resilientes e com maior rapidez, trazendo maiores benefícios de negócio para a empresa.

Como posso colocar em prática?
Fique de olho em nosso site para novidades!

Tendência 02/02
Indexação de conteúdo de documentos escaneados

O que é?
É muito comum que as empresas possuam documentos escaneados, ou mesmo gerados digitalmente em PDF. Fazer a gestão do conhecimento contida nestes documentos é algo complexo.

Por que isto é interessante?
Criar processos que possam extrair e indexar o conteúdo destes documentos, disponibilizando-os ao alcance de uma ferramente de busca corporativa “a la Google”, permite que a empresa possa facilmente encontrar o conhecimento em seus documentos.

Como posso colocar em prática?
Utilizando arquiteturas de processamento de dados que possam:
– Extrair o texto do documento
– Identificar keywords importantes
– Indexar todo este conteúdo em uma ferramenta que busca

Update Sem Where [Fevereiro/2022]

[Análise]   
E iniciamos o nosso ano com um bom ritmo de novidades!

Justificando seu marketshare, a AWS é a cloud com mais novidades neste início de ano, onde vemos um foco maior em soluções e arquiteturas que geram valor para os clientes.

Tendência esta também vista em seus competidores: um foco maior em soluções que geram valor e menor em “tecnologia pela tecnologia”.

Também temos um interessante novo competidor dentro do nem-sempre-tão-comentado ramo dos bancos de dados NewSQL, que são os bancos de dados relacionais e escaláveis, que procuram unir os mundos SQL e NoSQL. Veja a documentação do Yuga, que chega para brigar com competidores como Google Cloud Spanner e Cockroach DB.

Boa leitura!

[Big Data & Machine Learning
Yuga: um banco de dados escalável e resiliente
– Explicação sobre o algoritmo de Árvore de Decisão
Sete passos para aprender Machine Learning
– Um guia para a escolha de qual modelo de Machine Learning utilizar
– Uma comparação entre PyTorch e TensorFlow
Design Patterns em MLOps

[Amazon Web Services]  
– Modelos de Detecção de Fraude da Amazon em Python
– Arquitetura para extração e indexação de conteúdo de documentos
– Como monetizar suas APIs baseadas em dados
– Analisando os benefícios do AQUA para a performance do Redshift
– Embedando o Quicksight Q em suas soluções
Detecção de anomalias com o Opensearch

[Microsoft Azure]  
– Monitoramento avançado com Azure Monitor
– Integração de Logs com Logz.io

[Google Cloud Platform]  
– Criando modelos de Machine Learning para a área de Seguros
Análise Exploratória de Dados na GCP com Netapp
– Perpectivas de CyberSecurity na CISO 2022

[Databases]  
Flyway: Lidando com migrações que falharam
Flyway: Devops 101 com Flyway
Flyway: Customizando deploys de bancos de dados
Postgres: FDW para arquivos Parquet no S3
Postgres: pg_query_rewrite permite reescrever queries executadas
Postgres: PgSpider permite o uso do Postgres como um Presto
Postgres: Nova versão do PgPool lançada
MySQL: Point in time Recovery
MySQL: Configurando Disaster Recovery
MySQL: Dump & Load
MongoDB: Conector para o Apache Kafka lançado
MongoDB: 10 sinais de que sua arquitetura de dados está limitando sua inovação

Executive Summary [Janeiro/22]

awesome science trick versus engineering workaround on how to balance two forks on top of a glass

Esta é a Executive Summary, a nossa newsletter para executivos e líderes que gostam de contar com uma curadoria de conteúdo e preferem um formato para ser consumido de maneira objetiva.

Na newsletter de hoje temos 2 tendências muito interessantes para suas estratégias de transformação digital:

Tendência 01/02
Machine Learning Engineering (versus Data Science)

O que é?
Criar modelos matemáticos que encontram padrões nos dados e, com isso, conseguem realizar predições, é o trabalho principal do Data Scientist. A nova tendência é que estes profissionais passem a disponibilizar (via empresas ou diretamente), modelos prontos para o uso em plataformas de Cloud (GCP, AWS, Azure, etc) ou mesmo via um marketplace específico.

Por que isto é interessante?
Com o crescimento desta tendência, as empresas não precisarão mais ter um Data Scientist em suas equipes. Porém, os modelos disponibilizados ainda não são abstratos o suficientes para serem usados por Analistas de Negócio ou Programadores em geral. Por isso a necessidade de Machine Learning Engineer, que é um profissional formado basicamente em Engenharia de Dados, mas com conhecimentos em Data Science. O foco deste profissional será construir a soluções que utilizem os modelos de predição através da construção e monitoramento de Pipelines de Dados.

Como posso colocar em prática?
As principais nuvens já disponibilizam modelos pré-treinados para determinados problemas, alguns inclusive com soluções do tipo “drag-and-drop” (arraste e solte), sem precisar programar. Com isto, sua empresa pode fazer uso de modelos preditivos sem precisar criar uma equipe de Ciência de Dados.

Tendência 02/02
Migração para Nuvem AS-IS: Não faça isso

O que é?
Migrar arquiteturas de dados on premise para a nuvem pode ser uma verdadeida dor de cabeça. Afinal, a quantidade de dados envolvidos pode ser grande, a janela de manutenção pequena e o espaço para erro é inexistente. Por isso, para facilitar, muitas empresas migram as estruturas on prem para a nuvem “as is”, ou seja, mantendo a mesma arquitetura.

Por que isto é interessante?
Migrar para a nuvem não é apenas uma questão de não precisar gerenciar um datacenter. Pode ser muito mais: uso sob demanda, elasticidade sob demanda, separação de storage e processamento, utilização de diferentes serviços sob demanda, etc. Toda esta cartilha de opções está à sua disposição ao migrar para a nuvem, por isto é um bom momento para rever a arquitetura da sua solução para que você possa economizar/explorar/diversificar sua solução com ferramentas que antes não dispunha.

Como posso colocar em prática?
A AWS oferece o “AWS Well Architected Framework” com diversas ideias de arquiteturas para soluções comuns no mundo dos negócios.

Update Sem Where [Dezembro/21]

[Análise]   
E finalmente chegamos ao fim de mais um ano. Se 2021 (se) foi melhor do que 2020, também não podemos nos esquecer que ainda foi um ano com mais desafios ligados à pandemia do que gostaríamos.

Em Dezembro de 2021, ao que me parece, o sentimento da população é muito parecido com o sentimento que existia (a Gestalt) de Dezembro de 2020. À época também acreditávamos ter vencido o vírus, mas todos sabem que a história não foi assim.

Porém, a tendência agora parece ser realmente diferente, a cobertura vacinal ao redor do globo nos dá motivos para acreditar que sim, 2022 será mais parecido com 2019 do que com 2020.

No mundo da tecnologia, dentro do nicho de Dados, nossas apostas vão para projetos voltados cada vez mais para Engenharia de Dados e Big Data. A digitalização das empresas nos últimos 2 anos fizeram com que várias empresas passassem a usar sistemas e a gerar dados, que antes não existiam. Com isso, surge a necessidade de uma cultura que pare para olhar estes dados para que se possa tomar decisões com eles.

Porém, antes disso, a casa terá que ser arrumada. Unir dados de diferentes fontes, criar um catálogo de dados, cuidar da qualidade deles e possui um ambiente com capacidade elástica para processamento serão os desafios das empresas nos próximos anos.

E estaremos junto com você nesta jornada!

Boa leitura!

[Machine Learning & Data Engineering
– Guia prático para ARIMA com PyCaret
Todos os testes estatísticos para uma boa Regressão Linear
– Como fazer tuning de seu modelo de XGBoost
Dez tendências de AI para 2022
– Por quê Machine Learning Engineers estão crescendo mais do que Data Scientists?
Design Patterns para Machine Learning Pipelines
Introdução ao Shap em Python
– A importância do pensamento Bayesiano no dia-a-dia
– Aumentando a acurácia de Computer Vision no Tensorflow
“Dos and Don’ts” de um Data Scientist

[Amazon Web Services]  
Novas Features para o comando COPY no Redshift, para facilitar o dia do Data Engineer
Gerenciando dados pessoais de maneira automatizada na AWS
– AWS anuncia reduçãode até 31% nos custos de algumas classes do S3
– Criando uma Arquitetura de Data Mesh (Pub/Sub) na AWS
– AWS oferece serviço de consultoria para migração de dados com o Data Migration Accelerator
– Os benefícios de utlizar “in-memory” cache

[Microsoft Azure]  
– Como implementar AI responsavelmente
– Microsoft é definida como líder no Quadrante Gartner de DBMSs
– Azure aumenta seu conteúdo para processamento Geoespacial
– 5 Razões para usar o Azure Databricks

[Google Cloud Platform]  
Melhores posts sobre AI na GCP em 2021
Tendências que a GCP levantou junto a seus clientes em 2021
– Como lidar com o Log4J na GCP
– Principais novidades da GCP em Dezembro
– Utilizando o Contact Center AI para melhorar o relacionamento com clientes

[Postgres]  
– Lançada nova versão do DBComparer, que analise sincroniza o DDL de diferentes Postgres
– Nova versão lançada do Conversor de DB MySQL to Postgres

[MySQL]  
– Implementando soluções de Disaster Recovery com MySQL
– Recap da Oracle Database World
Usando o HeatWave para acelerar a criação de Insights

[MongoDB]  
– Sinais de que sua Arquitetura de Dados está limitando seu crescimento: Parte 1
– Sinais de que sua Arquitetura de Dados está limitando seu crescimento: Parte 2
– Análise de dados com Interactive Filtering
Exportando queries usando o VS Code

Podcast Driven By Data #001

É com muito orgulho que estamos lançando o nosso podcast, chamado Driven By Data!!!

Este podcast será em formato de “drops” (curtos e informativos), trazendo tendências, novidades ou qualquer assunto relevante no mundo de Data: Big Data, Analytics, Machine Learning, BI, etc.

O episódio piloto já está em nosso canal do YouTube:
https://www.youtube.com/watch?v=uw4AzMyob4g&t=17s

Gostou? Então assine o canal e deixe seu like!

Executive Summary – Dezembro/2021

Esta é a Executive Summary, a nossa newsletter para executivos e líderes que gostam de contar com uma curadoria de conteúdo e preferem um formato para ser consumido de maneira objetiva.

Na newsletter de hoje temos 3 tendências muito interessantes para suas estratégias de transformação digital:

Tendência 01/03
Produtos de Dados

O que são?
Entender a diferença entre projeto e produto pode ajudar a melhor gerenciar os produtos de dados que uma empresa possui.

Por que isto é interessante?
Para cultivar uma cultura data-driven corporativa.

Como posso colocar em prática?
O post do Itaú sobre o assunto em seu Medium é muito interessante.

Tendência 02/03
Seriam as plataformas de “Self Service BI” uma miragem?

O que é?
Embora pareça fornecer uma visão clara sobre seu significado, a expressão “Self Service BI” não é tão clara assim na prática. Poucas ferramentas (se é que existem), podem de fato ser “Self Service” para os key users corporativos que não são técnicos.

Por que isto é interessante?
A saída para este aparente paradoxo é que as equipes devem investir em possuir analistas de dados em seus times, afim de auxiliar o business a identificar e construir as métricas mais adequeadas.

Como posso colocar em prática?
Este artigo na KDNuggets traz uma dissertação (não exaustiva) sobre o tema.

Tendência 03/03
Data Drifting

O que é?
Um modelo de machine learning, ao ser treinado, está identificando um padrão nos dados apresentados. Ao ser colocado em produção, é comum que o padrão existente em treinamento comece a mudar, devido a própria natureza dos negócios, com isso o modelo perde sua eficácia.

Por que isto é interessante?
Criar bons modelos de machine learning e integrá-los de maneira efetiva em produtos ou processos é um trabalho desafiador. Mas o não monitoramento de Data Drifting ao colocar o modelo em produção pode resultar em perdas para o negócio.

Como posso colocar em prática?
O modelo precisa ser monitorado e, se necessário, retreinado. Neste aritgo, discultem-se diversos aspectos sobre o tema.

Data News – Novembro / 2021

[Análise]   
Em um mundo que está, cada vez mais, deixando a pandemia no passado, temos notado a volta dos eventos presenciais, ainda que se valendo de regras sanitárias, porém este cenário já sinaliza uma perspectiva de melhoria para os próximos meses.

Com a recuperação das economias ao redor do mundo, devemos ver mais empresas adotando estratégias “figitais”, aproveitando as plataformas digitais que construíram nos últimos anos, para somar com a experiência da presença física.

Aproveite as novidades deste mês para trazer melhorias para seu ambiente, ajudando sua empresa a melhorar iniciativas internas ou a desenvolver novos projetos.

Boa leitura!

[Machine Learning & Data Engineering
– Lançado o Blog do Itaú Data no Medium
– Usando Faker para criar dados sintéticos
– Transformando ETL em ELT
– Uma análise do cenário de Self Service BI
– Monitorar ou Não Monitorar um Modelo: Eis a questão

[Amazon Web Services]  
Amazon libera diversos cursos (que antes eram pagos) de forma gratuita
– Como construir um Data Vault no Redshift
– Lançado o conector SQLAlchemy Redshift
Restringindo o acesso ao Quicksight com base no IP
– Fazendo performance benchmark com HammerDB
– Real time analytics com AWS TimeStream
– Utilizando Data Wrangler para preparação dos dados
Compartilhando os dashboards do CloudWatch usando Single Sign On

[Microsoft Azure]  
Quatro maneiras de integrar Inteligência Artifical com IoT
– Proteção de dados com Azure Confidential Computing
Templates de soluções disponibilizados para o Azure Synapse Analytics

[Google Cloud Platform]  
– Lançado o Prometheus as a service
Big Query table snapshots estão disponíveis
Big Query Omni permite Analytics cross-clouds

[Postgres]  
– Conheça o pg_dirtyread para ler registros já deletados
– Conheça o Odyssey, um Connection Pool com integração de LDAP
– Melhore o monitoramento com pg_metrics e pg_dash
– Implemente statements rollback usado o pg_statement_rollback

[MySQL]  
Webinar de laboratório prático de MySQL oferecido pela Oracle
Webinar sobre Disaster Recovery oferecido pela Oracle

[MongoDB]  
– Lançada uma REST API para interação com o MongoDB Atlas
Facet Operator aumenta em 100x a performance de consultas