Big Data Archives - Máquina de Dados

Big Data & Digitalização

Decorative image showing data related icons

Big Data é um conjunto de técnicas e tecnologias que visam processar, armazenar e analisar grandes quantidades de dados para extrair informações valiosas.

Ela se tornou uma ferramenta importante para a digitalização das empresas porque permite que elas coletem, processem e analisem grandes quantidades de dados em tempo real, o que lhes dá uma visão mais precisa de seus negócios e lhes permite tomar decisões mais informadas.

Algumas das maneiras pelas quais o Big Data revolucionou a digitalização das empresas incluem:

Melhoria da tomada de decisão: o Big Data permite que as empresas coletem, processem e analisem grandes quantidades de dados em tempo real, o que lhes dá uma visão mais precisa de seus negócios e lhes permite tomar decisões mais informadas.
Personalização de produtos e serviços: o Big Data permite que as empresas coletem dados sobre os hábitos de consumo de seus clientes e usem esses dados para personalizar seus produtos e serviços de acordo com as necessidades e preferências individuais de cada cliente.
Otimização de processos: o Big Data permite que as empresas analisem seus processos internos e encontrem maneiras de torná-los mais eficientes, reduzindo custos e aumentando a produtividade.
Melhoria da experiência do cliente: o Big Data permite que as empresas coletem dados sobre as interações dos clientes com seus produtos e serviços e usem esses dados para identificar problemas e melhorar a experiência do cliente.

Update Sem Where #50

[Análise]
Não é surpresa para ninguém que o mercado de tecnologia possui falta de mão de obra qualificada. E não é apenas no Brasil!

A crescente digitalização das empresas (em parte impulsionada pela pandemia) e a grande tendência de permitir o trabalho remoto (também em grande parte impulsionada pela pandemia), fez com que a competição por talentos, antes baseada na localização, se torna-se uma luta global e desigual por talentos.

Global pois remota e desigual pois, com o real desvalorizado frente a outras moedas, fica muito fácil para empresas extrangeiras conseguirem atrair candidatos com salários exorbitantes, se convertidos para o Real, mas que na moeda de origem, podem representar menos do que se pagaria a um profissional morando naquele país. Ganha-ganha para quem contrata e para quem é contratado.

No Brasil temos como defesa, e aqui com um tom de ironia, o fato de que cerca de 95% da população não fala inglês, que é a língua utilizada pelas empresas que contratam remotamente, mesmo que não sendo Norte-Americanas ou Inglesas. Sabe quando na entrevista de emprego te perguntam um defeito e você pensa em responder um defeito que seja uma qualidade (alô “perfeccionismo”)? Então, é mais ou menos por aí.

Porém, internamente, temos nossa própria batalha de talentos. Por isso, cada vez mais as empresas investem em cursos de formação, já visando contratar os com melhor desempenho.

Só neste mês temos mais de 5 mil vagas para cursos, vindas de empresas como Microsoft, Itaú e ciandt.

Não fique de fora. O mercado de tecnologia está aquecido e, se você planeja trocar de área para entrar na tecnologia, o momento é agora.

“Ah, mas tecnologia não é só para geeks?”, pode perguntar uma pessoa qualquer. Não, não é. Assim como a Medicina, a área de Tecnologia possui diversas especializações, indo de Vendas até Fabricação de Hardware, passando por Codificação, Gestão de Projetos, etc.

Não é um mercado fácil, pois você tem que estar sempre se atualizando. Mas, nada que vale a pena na vida é fácil. E é melhor enfrentar desafios estando empregado e, possivelmente, sendo bem pago, do que o contrário.

Boa leitura e boa sorte!

[Data Engineering & Machine Learning]
– Tag-based access control for modern data architectures
– Construa uma Arquitetura Data Mesh com AWS Lake Formation e Glue
– Release do Airflow 2.3.0
– PyCaret 3.0 lançado!
– MLOps em 10 minutos
– Microsoft oferece 5 mil vagas gratuitas em capacitação
– ciandt abre vagas para curso gratuito de capacitação
– Itaú oferece vagas gratuitas para curso de capacitação
– Operacionalizando Machine Learning em 10 passos
– PyDon’ts: Ebook com melhores práticas para codificação em Python

[Amazon Web Services]
– Agora é possível criar Jobs Visuais no AWS Glue Studio
– AWS Glue Interactive Sessions permite o uso de notebooks no Glue
– AWS Athena adiciona conectores aos principais concorrentes
– Redshift agora possui integração com Microsoft Azure AD e PowerBI
– AWS MSK lançado, tornando o Kafka As A Service disponível

[Microsoft Azure]
– Utilize a Plataforma Power para construir soluções Low Code
– Lançado o Azure Health Data Services
– Microsoft libera a Feature Store do Linkedin

[Google Cloud Platform]
– Lançada a nova plataforma AlloyDb
– Links para as diversas sessions workshops gravadas no Google I/O
– Resumo de algumas novidades anunciadas no Google I/O
– Utilização de Machine Learning para melhorar o trabalho remoto
– Lançado o Big Query BI Engine!
– GCP lança o whitepaper The Future of Data
– Participe do Google Cloud Applied ML Summit
– Google lança o Cost Esmimator chamado GKE

[Databases]
– Postgres: Parquet e Postgres em um Data Lake
– Postgres: Monitoramento de query com pg_stat_statements
– Postgres: Entenda sua carga com pg_stat_monitor
– Postgres: Um guia para migrações com zero downtime
– Postgres: Analisando o IO do Postgres
– Postgres: Fazendo tuning do auto-vacuum

Driven by Data #04: KPIs que Todo Time de Dados deveria usar

Neste episódio elencamos alguns dos KPIs mínimos que TODO time de dados deveria usar para melhorar a governança do seu ambiente.

Update Sem Where [Fevereiro/2022]

[Análise]
E iniciamos o nosso ano com um bom ritmo de novidades!

Justificando seu marketshare, a AWS é a cloud com mais novidades neste início de ano, onde vemos um foco maior em soluções e arquiteturas que geram valor para os clientes.

Tendência esta também vista em seus competidores: um foco maior em soluções que geram valor e menor em “tecnologia pela tecnologia”.

Também temos um interessante novo competidor dentro do nem-sempre-tão-comentado ramo dos bancos de dados NewSQL, que são os bancos de dados relacionais e escaláveis, que procuram unir os mundos SQL e NoSQL. Veja a documentação do Yuga, que chega para brigar com competidores como Google Cloud Spanner e Cockroach DB.

Boa leitura!

[Big Data & Machine Learning]
– Yuga: um banco de dados escalável e resiliente
– Explicação sobre o algoritmo de Árvore de Decisão
– Sete passos para aprender Machine Learning
– Um guia para a escolha de qual modelo de Machine Learning utilizar
– Uma comparação entre PyTorch e TensorFlow
– Design Patterns em MLOps

[Amazon Web Services]
– Modelos de Detecção de Fraude da Amazon em Python
– Arquitetura para extração e indexação de conteúdo de documentos
– Como monetizar suas APIs baseadas em dados
– Analisando os benefícios do AQUA para a performance do Redshift
– Embedando o Quicksight Q em suas soluções
– Detecção de anomalias com o Opensearch

[Microsoft Azure]
– Monitoramento avançado com Azure Monitor
– Integração de Logs com Logz.io

[Google Cloud Platform]
– Criando modelos de Machine Learning para a área de Seguros
– Análise Exploratória de Dados na GCP com Netapp
– Perpectivas de CyberSecurity na CISO 2022

[Databases]
– Flyway: Lidando com migrações que falharam
– Flyway: Devops 101 com Flyway
– Flyway: Customizando deploys de bancos de dados
– Postgres: FDW para arquivos Parquet no S3
– Postgres: pg_query_rewrite permite reescrever queries executadas
– Postgres: PgSpider permite o uso do Postgres como um Presto
– Postgres: Nova versão do PgPool lançada
– MySQL: Point in time Recovery
– MySQL: Configurando Disaster Recovery
– MySQL: Dump & Load
– MongoDB: Conector para o Apache Kafka lançado
– MongoDB: 10 sinais de que sua arquitetura de dados está limitando sua inovação

Podcast Driven By Data #001

É com muito orgulho que estamos lançando o nosso podcast, chamado Driven By Data!!!

Este podcast será em formato de “drops” (curtos e informativos), trazendo tendências, novidades ou qualquer assunto relevante no mundo de Data: Big Data, Analytics, Machine Learning, BI, etc.

O episódio piloto já está em nosso canal do YouTube:
https://www.youtube.com/watch?v=uw4AzMyob4g&t=17s

Gostou? Então assine o canal e deixe seu like!

Workshop de Apache Beam

Venha conosco aprender sobre o Apache Beam, moderna ferramenta para Data Pipelines!

Link para o código usado na apresentação: https://github.com/rfribeiro/beam-workshop-campdata

Obrigado Rafael Ribeiro (Data Scientist na KaBuM!) por compartilhar este conhecimento conosco!

Pra quem perdeu, pode assistir no nosso canal do YT:

Digerindo dados com Apache NiFi

Ontem tivemos um dos melhores conteúdos em língua portuguesa sobre o Apache NiFi!

Ferramenta fantástica, que junta a facilidade do trabalho em interface visual com a capacidade de escalar e distribuir carga, tão necessária no mundo de Big Data.

Obrigado Eliézer Zarpelão por compartilhar este conhecimento conosco!

Pra quem perdeu, pode assistir no nosso canal do YT:

Category Big Data