top of page

Tratamento estatístico de dados

  • Foto do escritor: Filipe Barbosa
    Filipe Barbosa
  • 12 de jan. de 2024
  • 6 min de leitura

Atualizado: 15 de fev. de 2024

RESUMO


O tratamento estatístico de dados, ou análise de dados, é o exercício de transformar dados ou números em informação útil para a compreensão de uma determinada situação e/ou tomada de decisão. Apresentamos as técnicas estatísticas mais comuns assim como alguns exemplos práticos.

 

INTRODUÇÃO


É difícil identificar o primeiro caso de análise de dados, já que os humanos analisam dados há séculos. No entanto, um dos primeiros casos registados de análise de dados remonta ao século 17, quando John Graunt, um comerciante de Londres, analisou as listas semanais de mortalidade.


As listas de mortalidade eram relatórios semanais que documentavam o número de mortes em Londres e a causa da morte. Graunt usou esses dados para criar as primeiras tabelas de vida, que mostravam a probabilidade de morrer em diferentes idades e a esperança média de vida. Essa análise ajudou a avançar no campo da demografia, o estudo das populações, e é considerada um trabalho fundamental em estatística.


Nos dias de hoje, algumas situações práticas em que o tratamento de dados é útil são:


1. Tomada de decisão fundamentada: A análise de dados ajuda os decisores a tomar decisões informadas, fornecendo insights baseados em evidências.


2. Identificação de problemas: A análise de dados ajuda a identificar e resolver problemas destacando padrões, tendências e exceções.


3. Melhoria da eficiência: A análise de dados pode ajudar as organizações a identificar ineficiências e áreas de melhoria, levando ao aumento da produtividade e à redução de custos.


4. Aumento de vendas: analisando os dados, as organizações podem identificar novas oportunidades de crescimento e expansão.


5. Modelagem preditiva: A análise de dados pode ser usada para desenvolver modelos preditivos que podem prever tendências e padrões futuros em função das variáveis mais importantes.


Apresentamos de seguida algumas das técnicas mais comuns e alguns exemplos.

 

FERRAMENTAS ESTATÍSTICAS MAIS COMUNS


Ao longo do tempo foi desenvolvido um grande número de ferramentas estatísticas, com diferentes graus de complexidade. A boa notícia é que, nos dias de hoje, há várias aplicações de software que colocam a utilização destas ferramentas ao alcance de quase todos. Algumas das principais ferramentas estatísticas utilizadas em ambiente empresarial são:


1. Estatística descritiva: é uma forma de resumir e descrever dados usando medidas como média, mediana, moda, variância e desvio padrão. Estatísticas descritivas podem ser usadas para entender melhor as características de um conjunto de dados.


2. Estatística inferencial: envolve fazer previsões ou tirar conclusões sobre uma população com base em uma ou mais amostras de dados. Estatísticas inferenciais são frequentemente usadas em pesquisas de mercado, onde uma amostra de consumidores é usada para fazer inferências sobre a totalidade da população. Está na base dos Testes de Hipóteses onde se procura determinar se há uma diferença estatisticamente significativa entre dois grupos ou se existe uma relação entre duas variáveis.


3. Análise de regressão: A regressão é um método estatístico usado para identificar a relação entre duas ou mais variáveis. A análise de regressão pode ser usada para desenvolver modelos preditivos e fazer previsões.


4. Análise de séries temporais: Este é um método estatístico usado para analisar dados ao longo do tempo. A análise de séries temporais pode ser usada para identificar tendências e padrões nos dados, fazer previsões e detetar anomalias.


5. Controlo estatístico do processo: Este é um método que utiliza cartas de controlo e é usado para monitorizar um processo e determinar se os resultados obtidos são consistentes e previsíveis. Permite por outro lado identificar situações anormais e, nesses casos, iniciar um processo de investigação das causas.


Estas são apenas algumas das principais ferramentas estatísticas utilizadas nos negócios. A escolha da ferramenta ou ferramentas apropriadas dependerá do problema ou questão comercial específica a abordar.

 

EXEMPLOS


Para exemplificar a utilização de algumas das ferramentas apresentadas antes, vamos recorrer a um exemplo em que uma empresa está a analisar dados sobre o tempo que demora a preparar encomendas, medido em minutos. O objetivo é entender quais os fatores que mais influenciam esse tempo e, em seguida, tomar medidas para reduzi-lo.

Os dados recolhidos ao longo de várias semanas apresentam-se da seguinte forma:



Podemos verificar que, além da variável “Tempo”, que é a variável dependente, foram também recolhidos dados para cada encomenda sobre 6 variáveis independentes: se a encomenda é urgente ou não, dia da semana, quantidade de itens da encomenda, número de linhas da encomenda, hora do dia e operador que preparou a encomenda.


Numa primeira análise, tipicamente usamos a estatística descritiva para quantificar a tendência central e a dispersão da variável “Tempo”:


 

De seguida, procuramos visualizar a variável dependente ao longo do tempo, num gráfico de série temporal para ver se existem padrões de interesse:



Neste caso, parecem existir várias observações “estranhas”, mas como decidir com algum grau de confiança estatística quais são realmente anormais em comparação com as restantes? Para isso utilizamos uma carta de controlo:

  


Com base nesta carta, podemos ver quais são as observações que são realmente estranhas ou “outliers” podendo assim investigar as causas das mesmas. Em alguns casos, vamos poder concluir que há um bom motivo para descartar estes dados da análise, noutros casos não o vamos poder fazer, pelo que devemos manter todas as observações para os passos seguintes da análise. No nosso exemplo, verificamos que os “outliers” se devem a erros de registo dos dados ou a avarias no sistema, como tal, optamos por descartar estas observações e recalculamos a estatística descritiva e a carta de controlo:


 


De seguida vamos procurar descobrir se, com base nesta amostra, podemos concluir que as encomendas urgentes são preparadas mais depressa do que as não urgentes. É neste cenário que a estatística inferencial e o teste de hipóteses nos vêm ajudar:

  

 


 


Sem entrar muito em detalhe no resultado da análise, vemos graficamente que os intervalos de confiança para os dois conjuntos de dados não se sobrepõem e o P-Value é inferior a 0,05, como tal concluímos que existe uma diferença significativa entre os tempos de preparação de encomendas urgentes e não urgentes. Na prática confirmamos algo que esperávamos, ou seja, o processo de tratamento de encomendas urgentes é mais rápido do que o processo standard.


Uma outra hipótese a colocar é se o “Dia da semana” tem influência no tempo de preparação das encomendas. Olhando apenas à estatística descritiva, vemos que as médias por dia são diferentes:

 


No entanto, estas são apenas médias de amostras aleatórias. O que realmente procuramos é a comparação entre as populações de onde estas amostras foram retiradas, tomando como base as médias e as variações das mesmas. Para isso, temos de recorrer de novo à estatística inferencial e ao teste de hipóteses:



O resultado da análise mostra-nos graficamente que o intervalo de confiança para as médias das populações que estamos a comparar se sobrepõem, ao mesmo tempo que o P-Value é superior a 0,05, o que significa que não podemos concluir que o “Dia da semana” influencia significativamente o tempo de preparação das encomendas.


Seguindo a mesma abordagem, poderíamos repetir a análise para as variáveis independentes “Operador” e “Hora do dia”:

 


Concluindo que:


-O operador B é significativamente mais rápido do que os operadores A e C, o que nos leva a observar quais as diferenças no modo operatório dos mesmos e assim perceber como podemos ajudar os operadores A e C a serem tão eficientes como o B.


-Não existem diferenças significativas no tempo de preparação ao longo do dia, em função da hora em que a encomenda é preparada.


Analisando agora a importância das restantes variáveis independentes no nosso processo, “Qtd itens” e “Nr linhas”, uma vez que são variáveis do tipo quantitativo, podemos utilizar a Regressão para tentar obter modelos significativos.


 


De onde se conclui pelo valor de P superior a 0,05 que a variável “Qtd itens” não tem influência significativa no tempo de preparação.

 

 

De onde se conclui pelo valor de P inferior a 0,05 que a variável “Nr linhas” tem influência significativa no tempo de preparação. Assim, podemos usar o modelo, ou equação, para prever qual será o tempo de preparação da encomenda em função do número de linhas da mesma.


Em jeito de conclusão deste exemplo, as variáveis ou fatores que influenciam significativamente o tempo de preparação da encomenda são:

-Urgência

-Operador

-Número de itens


 A partir deste conhecimento podemos procurar soluções que permitam tornar o processo mais rápido e consistente, descartando as restantes variáveis estudadas “Dia da Semana”, “Qtd itens” e “Hora do dia”.

 

 

EM SÍNTESE


A análise de dados é importante porque ajuda indivíduos e organizações a tomar decisões informadas com base em evidências e fatos. Ao analisar os dados, podemos identificar padrões, tendências e insights que podem não ser imediatamente aparentes nos dados brutos.

 

Nota: as análises apresentadas neste artigo foram realizadas recorrendo ao software estatístico Minitab.

 
 
 

Comentarios


bottom of page