#18 Coleta e Preparação de Dados

Subscribe to get the latest

on Sun Aug 30 2020 17:00:00 GMT-0700 (Pacific Daylight Time)

with Darren W Pulsipher,

Sarah Kalicin, Cientista de Dados Líder na Intel, e Darren Pulsipher, Arquiteto Principal de Soluções, Setor Público da Intel, falam sobre o processo e os benefícios da coleta e preparação de dados para se tornar uma organização centrada em dados. Este é o segundo passo na jornada de se tornar uma organização centrada em dados.


Keywords

#dataarchitecture #datacentric #data


Precisamos de dados! Nossos dados estão uma bagunça!

A primeira coisa a se pensar nesta parte do processo é o fluxo de dados. Como identificamos quais dados brutos precisamos e como os levamos pelo fluxo e os transformamos em conhecimento? Existem cinco etapas-chave no fluxo: determinar o valor empresarial dos dados, ingestão, preparação, análise e, por fim, agir com base nos insights resultantes.

Vamos analisar a fabricação como exemplo. Ao determinar quais dados oferecem valor para o negócio, você deve fazer três perguntas fundamentais: Qual é a demanda pelo meu produto? Qual é o suprimento atual? Qual é a perda de rendimento? Essas são perguntas aparentemente simples, mas então você precisa pensar em coisas mais complexas, como como quantificar a demanda, capacidades de fabricação, suprimento e perda de rendimento? De onde vêm os dados? Como eu os incorporo? Quão confiáveis e estáveis são esses dados? Há muitas perguntas e variáveis, como o tempo de entrega de produtos brutos, demanda projetada e perda de rendimento desconhecida, que podem criar uma grande complexidade.

O pipeline simplifica como todos esses componentes se juntam. Cada tipo de dado passa pelas etapas-chave do pipeline, mas cada um será diferente. Por exemplo, a ingestão de um tipo de dado será diferente da ingestão de outro. A ideia, no entanto, é reunir todos os dados para criar uma imagem clara.

Temos dados! O que fazemos com eles?

Dependendo do tipo de dados e das perguntas que você está tentando responder, você usaria diferentes técnicas analíticas. Por exemplo, ao responder quantos widgets devem ser fabricados, você poderia analisar o histórico de oferta e demanda por meio de análise de dados e inteligência empresarial básica. Para determinar quais widgets têm defeitos visuais, um algoritmo que aprende a identificar defeitos em imagens por meio de aprendizado profundo pode ser a melhor abordagem. Não existe uma única técnica que resolva todos os problemas; cada uma é única para o problema e os próprios dados.

Além disso, é importante trazer especialistas do domínio para ajudar a entender os padrões que os dados produzem. O especialista do domínio irá compreender os dados e de onde eles provêm, e o cientista de dados irá compreender a melhor abordagem para os algoritmos a fim de obter mais insights. Se, por exemplo, uma diminuição na produção de produtos for prevista por meio de um algoritmo de aprendizado de máquina, os engenheiros que precisam corrigir o problema não saberão necessariamente onde procurar sem o contexto do problema. Uma das razões pelas quais as organizações não estão obtendo um retorno sobre o investimento no grau que deveriam é porque elas não construíram seus modelos de forma a serem aplicáveis ou reflexivos dos comportamentos dentro dos sistemas que estão tentando prever.

Como tudo isso funciona em conjunto depende das perguntas de negócios que você está fazendo e dos seus desafios. Por exemplo, você pode ter uma variedade de algoritmos dizendo quantos widgets fabricar. Você pode ter um algoritmo de aprendizado profundo que reconhece se um widget tem algum defeito e até mesmo categoriza os defeitos. Mas isso não ajuda necessariamente se você não souber por que ocorreu esse defeito. Portanto, você precisa associar essas informações a alguns outros algoritmos para obter correlações que expliquem os defeitos, e precisará de um plano de ação para corrigir o problema.

Precisamos Criar Perspectivas. Como Treinamos nossos Dados?

Como conseguimos isso? Essencialmente, você está reunindo todos os dados, preparando-os e vinculando-os para, por exemplo, quantificar o abastecimento e previsões de perda de rendimento. Ao longo do tempo, você vai precisar de práticas de solução de problemas e melhoria contínua para lidar com as condições em constante mudança. É aí que entra a cultura da organização. Resolver um problema uma vez, sem o compromisso com a melhoria contínua, pode fazer com que a organização perca o verdadeiro valor da análise a longo prazo.

Estamos presenciando hoje uma grande mudança em direção a organizações com uma infraestrutura centrada em dados. Os dados não estão mais apenas no centro de dados, mas também na nuvem e na borda. Com o processo de negócio no topo, levando a melhorias contínuas, compreensão dos negócios e dos dados, e até mesmo a implementação, organizações construídas com base nessa infraestrutura podem perceber uma diferença significativa.

Podcast Transcript