Update Sem Where #50

Logo da nossa newsletter, chamada Update sem Where

[Análise]   
Não é surpresa para ninguém que o mercado de tecnologia possui falta de mão de obra qualificada. E não é apenas no Brasil!

A crescente digitalização das empresas (em parte impulsionada pela pandemia) e a grande tendência de permitir o trabalho remoto (também em grande parte impulsionada pela pandemia), fez com que a competição por talentos, antes baseada na localização, se torna-se uma luta global e desigual por talentos.

Global pois remota e desigual pois, com o real desvalorizado frente a outras moedas, fica muito fácil para empresas extrangeiras conseguirem atrair candidatos com salários exorbitantes, se convertidos para o Real, mas que na moeda de origem, podem representar menos do que se pagaria a um profissional morando naquele país. Ganha-ganha para quem contrata e para quem é contratado.

No Brasil temos como defesa, e aqui com um tom de ironia, o fato de que cerca de 95% da população não fala inglês, que é a língua utilizada pelas empresas que contratam remotamente, mesmo que não sendo Norte-Americanas ou Inglesas. Sabe quando na entrevista de emprego te perguntam um defeito e você pensa em responder um defeito que seja uma qualidade (alô “perfeccionismo”)? Então, é mais ou menos por aí.

Porém, internamente, temos nossa própria batalha de talentos. Por isso, cada vez mais as empresas investem em cursos de formação, já visando contratar os com melhor desempenho.

Só neste mês temos mais de 5 mil vagas para cursos, vindas de empresas como Microsoft, Itaú e ciandt.

Não fique de fora. O mercado de tecnologia está aquecido e, se você planeja trocar de área para entrar na tecnologia, o momento é agora.

“Ah, mas tecnologia não é só para geeks?”, pode perguntar uma pessoa qualquer. Não, não é. Assim como a Medicina, a área de Tecnologia possui diversas especializações, indo de Vendas até Fabricação de Hardware, passando por Codificação, Gestão de Projetos, etc.

Não é um mercado fácil, pois você tem que estar sempre se atualizando. Mas, nada que vale a pena na vida é fácil. E é melhor enfrentar desafios estando empregado e, possivelmente, sendo bem pago, do que o contrário.

Boa leitura e boa sorte!

[Data Engineering & Machine Learning
Tag-based access control for modern data architectures
– Construa uma Arquitetura Data Mesh com AWS Lake Formation e Glue
– Release do Airflow 2.3.0
PyCaret 3.0 lançado!
MLOps em 10 minutos
– Microsoft oferece 5 mil vagas gratuitas em capacitação
– ciandt abre vagas para curso gratuito de capacitação
– Itaú oferece vagas gratuitas para curso de capacitação
Operacionalizando Machine Learning em 10 passos
PyDon’ts: Ebook com melhores práticas para codificação em Python

[Amazon Web Services]  
– Agora é possível criar Jobs Visuais no AWS Glue Studio
AWS Glue Interactive Sessions permite o uso de notebooks no Glue
– AWS Athena adiciona conectores aos principais concorrentes
– Redshift agora possui integração com Microsoft Azure AD e PowerBI
– AWS MSK lançado, tornando o Kafka As A Service disponível

[Microsoft Azure]  
– Utilize a Plataforma Power para construir soluções Low Code
– Lançado o Azure Health Data Services
– Microsoft libera a Feature Store do Linkedin

[Google Cloud Platform]  
– Lançada a nova plataforma AlloyDb
– Links para as diversas sessions workshops gravadas no Google I/O
– Resumo de algumas novidades anunciadas no Google I/O
– Utilização de Machine Learning para melhorar o trabalho remoto
– Lançado o Big Query BI Engine!
– GCP lança o whitepaper The Future of Data
– Participe do Google Cloud Applied ML Summit
– Google lança o Cost Esmimator chamado GKE

[Databases]  
Postgres: Parquet e Postgres em um Data Lake
Postgres: Monitoramento de query com pg_stat_statements
Postgres: Entenda sua carga com pg_stat_monitor
Postgres: Um guia para migrações com zero downtime
Postgres: Analisando o IO do Postgres
Postgres: Fazendo tuning do auto-vacuum

Update Sem Where [Fevereiro/2022]

[Análise]   
E iniciamos o nosso ano com um bom ritmo de novidades!

Justificando seu marketshare, a AWS é a cloud com mais novidades neste início de ano, onde vemos um foco maior em soluções e arquiteturas que geram valor para os clientes.

Tendência esta também vista em seus competidores: um foco maior em soluções que geram valor e menor em “tecnologia pela tecnologia”.

Também temos um interessante novo competidor dentro do nem-sempre-tão-comentado ramo dos bancos de dados NewSQL, que são os bancos de dados relacionais e escaláveis, que procuram unir os mundos SQL e NoSQL. Veja a documentação do Yuga, que chega para brigar com competidores como Google Cloud Spanner e Cockroach DB.

Boa leitura!

[Big Data & Machine Learning
Yuga: um banco de dados escalável e resiliente
– Explicação sobre o algoritmo de Árvore de Decisão
Sete passos para aprender Machine Learning
– Um guia para a escolha de qual modelo de Machine Learning utilizar
– Uma comparação entre PyTorch e TensorFlow
Design Patterns em MLOps

[Amazon Web Services]  
– Modelos de Detecção de Fraude da Amazon em Python
– Arquitetura para extração e indexação de conteúdo de documentos
– Como monetizar suas APIs baseadas em dados
– Analisando os benefícios do AQUA para a performance do Redshift
– Embedando o Quicksight Q em suas soluções
Detecção de anomalias com o Opensearch

[Microsoft Azure]  
– Monitoramento avançado com Azure Monitor
– Integração de Logs com Logz.io

[Google Cloud Platform]  
– Criando modelos de Machine Learning para a área de Seguros
Análise Exploratória de Dados na GCP com Netapp
– Perpectivas de CyberSecurity na CISO 2022

[Databases]  
Flyway: Lidando com migrações que falharam
Flyway: Devops 101 com Flyway
Flyway: Customizando deploys de bancos de dados
Postgres: FDW para arquivos Parquet no S3
Postgres: pg_query_rewrite permite reescrever queries executadas
Postgres: PgSpider permite o uso do Postgres como um Presto
Postgres: Nova versão do PgPool lançada
MySQL: Point in time Recovery
MySQL: Configurando Disaster Recovery
MySQL: Dump & Load
MongoDB: Conector para o Apache Kafka lançado
MongoDB: 10 sinais de que sua arquitetura de dados está limitando sua inovação

Executive Summary [Janeiro/22]

awesome science trick versus engineering workaround on how to balance two forks on top of a glass

Esta é a Executive Summary, a nossa newsletter para executivos e líderes que gostam de contar com uma curadoria de conteúdo e preferem um formato para ser consumido de maneira objetiva.

Na newsletter de hoje temos 2 tendências muito interessantes para suas estratégias de transformação digital:

Tendência 01/02
Machine Learning Engineering (versus Data Science)

O que é?
Criar modelos matemáticos que encontram padrões nos dados e, com isso, conseguem realizar predições, é o trabalho principal do Data Scientist. A nova tendência é que estes profissionais passem a disponibilizar (via empresas ou diretamente), modelos prontos para o uso em plataformas de Cloud (GCP, AWS, Azure, etc) ou mesmo via um marketplace específico.

Por que isto é interessante?
Com o crescimento desta tendência, as empresas não precisarão mais ter um Data Scientist em suas equipes. Porém, os modelos disponibilizados ainda não são abstratos o suficientes para serem usados por Analistas de Negócio ou Programadores em geral. Por isso a necessidade de Machine Learning Engineer, que é um profissional formado basicamente em Engenharia de Dados, mas com conhecimentos em Data Science. O foco deste profissional será construir a soluções que utilizem os modelos de predição através da construção e monitoramento de Pipelines de Dados.

Como posso colocar em prática?
As principais nuvens já disponibilizam modelos pré-treinados para determinados problemas, alguns inclusive com soluções do tipo “drag-and-drop” (arraste e solte), sem precisar programar. Com isto, sua empresa pode fazer uso de modelos preditivos sem precisar criar uma equipe de Ciência de Dados.

Tendência 02/02
Migração para Nuvem AS-IS: Não faça isso

O que é?
Migrar arquiteturas de dados on premise para a nuvem pode ser uma verdadeida dor de cabeça. Afinal, a quantidade de dados envolvidos pode ser grande, a janela de manutenção pequena e o espaço para erro é inexistente. Por isso, para facilitar, muitas empresas migram as estruturas on prem para a nuvem “as is”, ou seja, mantendo a mesma arquitetura.

Por que isto é interessante?
Migrar para a nuvem não é apenas uma questão de não precisar gerenciar um datacenter. Pode ser muito mais: uso sob demanda, elasticidade sob demanda, separação de storage e processamento, utilização de diferentes serviços sob demanda, etc. Toda esta cartilha de opções está à sua disposição ao migrar para a nuvem, por isto é um bom momento para rever a arquitetura da sua solução para que você possa economizar/explorar/diversificar sua solução com ferramentas que antes não dispunha.

Como posso colocar em prática?
A AWS oferece o “AWS Well Architected Framework” com diversas ideias de arquiteturas para soluções comuns no mundo dos negócios.

Arquitetura de Big Data

Uma arquitetura de Big Data costuma possuir várias camadas específicas, cada uma com uma função diferente.

De maneira geral, as camadas são:
– Entrada do pedido
– Orquestração
– Processamento
– Predição
– Retorno da informação

Nesta apresentação, trazemos uma jornada de análise de arquiteturas serverless para se utilizar com um micro-serviço de machine learning.

Analisamos vários pontos, mostrando os prós e contras de cada solução.

Link: https://www.youtube.com/watch?v=WhR4BXb3Ja0&t=1144s

Big Data em Multi-Cloud

Como operar um ambiente de Big Data em Multi-Cloud? E como fazer este ambiente servir a diversos propósitos, seja para um BI, para um trabalho de Análise e Mineração de Dados ou para alimentar a criação de Modelos de Machine Learning?

Aprenda como a AME Digital resolveu este problema neste webinar da campdata: https://www.youtube.com/channel/UCePbMP6CDVtRVkTon3USpRg

Aproveite!

Arquitetura Lambda na Prática

Existem diversos padrões de de arquitetura para Big Data e Data Pipelines.

Uma delas é a Arquitetura Lambda. Ela permite que um mesmo dado seja processado em real time para visualização rápida, ao mesmo tempo em que este dado vai para uma área de dados históricos, onde será processado de outras maneiras.

Nesta palestra demonstramos como construir uma Arquitetura Lambda na prática na Amazon Web Services (AWS).

Link: https://www.youtube.com/watch?v=z_jJH57rM-o

Princípios de Cloud Computing

O que é Cloud Computing?

Cloud Computing, ou Computação em Nuvem, é o nome dado para os recursos computacionais oferecidos como serviço, por algum fornecedor de tecnologia, através da Internet.

Existem três tipos de ofertas principais:

   Infrastructure as a Service (IaaS): É quando o fornecedor oferece máquinas (servidores), discos, redes virtuais, armazenamento de dados ou qualquer outro recurso de infraestrutura como um serviço através da Internet. Isto significa que estes recursos ficarão fisicamente nos Data Centers do fornecedor e você terá acesso exclusivo aos mesmos, como se fossem seus (o que de fato são).

   Platform as a Service (PaaS): É um nível acima do IaaS. Aqui temos uma infraestrutura por baixo, mas além dela temos algum tipo de serviço configurado. São exemplos de PaaS: bancos de dados, DNS, FTP, Single Sign On, etc. Neste nível de serviço você adquire uma plataforma pré-configurada e pronta para o uso (por exemplo: você pode adquirir um banco de dados rodando normalmente e pronto para receber conexões). Mais uma vez, os recursos são exclusivos e outros usuários não terão acesso aos seus dados.

   Software as a Service (SaaS): Esta é talvez a sigla mais famosa das atuais ofertas de Cloud. Ela significa adquirir toda uma solução como serviço, ou seja, ao invés de você comprar máquinas e adquirir licenças para rodar um sistema ERP, por exemplo, você pode simplesmente “assinar” um sistema como serviço e utilizá-lo via Web. Este sistema provavelmente utilizará, em sua infraestrutura, os conceitos de IaaS e PaaS que vimos anteriormente.