Tuesday 19 September 2017

Média De Regressão Versus Movimento


(H). Estatísticas inferenciais: regressão e correlação A regressão e análise de correlação são técnicas estatísticas utilizadas amplamente na geografia física para examinar relações causais entre variáveis. A regressão e a correlação medem o grau de relação entre duas ou mais variáveis ​​em duas formas diferentes, mas relacionadas. Na análise de regressão, uma única variável dependente, Y. É considerada uma função de uma ou mais variáveis ​​independentes, X 1, X 2 e assim por diante. Os valores das variáveis ​​dependentes e independentes são assumidos como sendo determinados de forma aleatória sem erros. Além disso, as formas paramétricas de análise de regressão assumem que, para qualquer valor dado da variável independente, os valores da variável dependente são normalmente distribuídos sobre algum meio. A aplicação deste procedimento estatístico a variáveis ​​dependentes e independentes produz uma equação que melhor se aproxima da relação funcional entre as observações de dados. A análise de correlação mede o grau de associação entre duas ou mais variáveis. Métodos paramétricos de análise de correlação assumem que, para qualquer par ou conjunto de valores obtidos em um determinado conjunto de condições, a variação em cada uma das variáveis ​​é aleatória e segue um padrão de distribuição normal. A utilização da análise de correlação em variáveis ​​dependentes e independentes produz uma estatística chamada coeficiente de correlação (r). O quadrado desse parâmetro estatístico (o coeficiente de determinação ou r 2) descreve a proporção da variação na variável dependente associada à regressão de uma variável independente. A análise de variância é utilizada para testar o significado da variação na variável dependente que pode ser atribuída à regressão de uma ou mais variáveis ​​independentes. O emprego deste procedimento estático produz um valor F calculado que é comparado com valores F críticos para um determinado nível de probabilidade estatística. A obtenção de um valor F calculado significativo indica que os resultados de regressão e correlação são verdadeiros e não conseqüência do acaso. Regressão linear simples Em uma análise de regressão simples, uma variável dependente é examinada em relação a apenas uma variável independente. A análise é projetada para derivar uma equação para a linha que melhor modelos a relação entre as variáveis ​​dependente e independente. Esta equação tem a forma matemática: onde, Y é o valor da variável dependente, X é o valor da variável independente, a é a intercepção da linha de regressão no eixo Y quando X 0 e b é a inclinação da linha de regressão. A tabela a seguir contém dados coletados aleatoriamente sobre a precipitação da estação de crescimento e o rendimento do pepino (Tabela 3h-1). É razoável sugerir que a quantidade de água recebida em um campo durante a estação de crescimento influenciará o rendimento de pepinos crescendo nela. Podemos usar esses dados para ilustrar como a análise de regressão é realizada. Nesta tabela, a precipitação é nossa variável independente e não é afetada pela variação no rendimento do pepino. No entanto, o rendimento do pepino é influenciado pela precipitação e, portanto, é designado como a variável Y na análise. Tabela 3h-1: rendimento de pepino versus dados de precipitação para 62 observações. Muitas vezes, o primeiro passo na análise de regressão é traçar os dados X e Y em um gráfico (Figura 3h-1). Isso é feito para visualizar graficamente a relação entre as duas variáveis. Se houver um relacionamento simples, os pontos plotados terão tendência para formar um padrão reconhecível (uma linha reta ou curva). Se o relacionamento for forte, o padrão será muito óbvio. Se o relacionamento for fraco, os pontos serão mais espalhados e o padrão menos distinto. Se os pontos parecem cair bastante ao acaso, pode não haver relação entre as duas variáveis. Figura 3h-1. Gráfico de Scattergram dos dados de precipitação e rendimento de pepino encontrados na Tabela 3h-1. A distribuição dos pontos de dados indica uma possível relação linear positiva entre as duas variáveis. O tipo de padrão (linha reta, curva parabólica, curva exponencial, etc.) determinará o tipo de modelo de regressão a ser aplicado aos dados. Neste caso particular, examinaremos os dados que produzem uma relação linear simples (veja a Figura 3h-1). Depois de selecionar o modelo a ser usado, o próximo passo é calcular as somas corrigidas de quadrados e produtos usados ​​em uma análise de regressão linear bivariada. Nas equações a seguir, as letras maiúsculas indicam valores não corrigidos das variáveis ​​e as letras minúsculas são usadas para os parâmetros corrigidos na análise. 9A soma corrigida de quadrados para Y. 9 (0,36 2 0,09 2 0,42 2) - (26,62 2) 62 9 A soma corrigida de quadrados para X. 9 (22 2 6 2. 61 2) - (3,050 2) 62 9A soma corrigida dos produtos. Conforme discutido anteriormente, a forma geral da equação para uma linha reta é Y a bX. Nesta equação, a e b são constantes ou coeficientes de regressão que são estimados a partir do conjunto de dados. Com base no procedimento matemático dos mínimos quadrados, as melhores estimativas desses coeficientes são: a9 Y - bX 0.42935 - (0.0060) (49.1935) 0.1361 Substituindo estas estimativas na equação linear geral sugere a seguinte relação entre as variáveis ​​Y e X: onde Indica que estamos usando um valor estimado de Y. Com esta equação, podemos estimar o número de pepinos (Y) a partir das medidas de precipitação (X) e descrever essa relação em nosso scattergram com uma linha direta de melhor ajuste (Figura 3h-2). Como Y é estimado a partir de um valor conhecido de X. É chamada de variável dependente e X a variável independente. Ao traçar os dados em um gráfico, os valores de Y são normalmente plotados ao longo do eixo vertical e os valores de X ao longo do eixo horizontal. Figura 3h-2. Gráfico Scattergram dos dados de rendimento de precipitação e pepino e o modelo de regressão se encaixa melhor em linha reta, descrevendo a relação linear entre as duas variáveis. Análise de regressão e ANOVA Um modelo de regressão pode ser visto como um tipo de média móvel. A equação de regressão tenta explicar a relação entre as variáveis ​​Y e X através da associação linear. Para um valor particular de X, o modelo de regressão nos fornece um valor estimado de Y. No entanto, a Figura 3h-2 indica que muitos dos valores plotados dos dados reais são observados acima da linha de regressão enquanto outros valores são encontrados abaixo dele. Essas variações são causadas por erro de amostragem ou pelo fato de que alguma outra variável independente inexplicada influencia os valores individuais da variável Y. A soma corrigida de quadrados para Y (isto é S y 2) determina a quantidade total de variação que ocorre com as observações individuais de Y sobre a estimativa média de. A quantidade de variação em Y que está diretamente relacionada com a regressão em X é chamada de soma de regressão de quadrados. Este valor é calculado de acordo: 9 Regressão SS (354.1477) 2 (59.397.6775) 2.1115 Conforme discutido acima, a variação total em Y é determinada por S y 2 2.7826. A quantidade da variação total em Y que não está associada à regressão é denominada soma residual de quadrados. Este parâmetro estatístico é calculado subtraindo a soma de regressão dos quadrados da soma corrigida de quadrados para Y (S y 2): SS 9 residual e 2 - Regressão SS A variação inexplicada agora pode ser usada como padrão para testar a quantidade de Variação atribuível à regressão. Seu significado pode ser testado com o teste F a partir de cálculos realizados em uma tabela de Análise de Variância. Fonte de variação 9 1 Foram 62 valores de Y analisados ​​e, portanto, n 62. A soma total de graus quadrados de liberdade (df) é determinada como n-1 ou 61. A regressão de Y em X tem 1 grau de liberdade. Os graus de liberdade residuais ou inexplicados são determinados subtraindo a regressão df (1) da soma total dos quadrados df (61). 9 2 MS é calculado como SS df. Usando o procedimento de Análise de Variância, a regressão é testada determinando a estatística F calculada. Para testar esta estatística, usamos uma tabela de F para determinar um valor de teste crítico para uma probabilidade de 0,01 ou 1 (essa relação pode ocorrer apenas por chance em 1 de cada 100 casos) e com 1,60 graus de liberdade. De acordo com a tabela, o valor do teste crítico é 7.1. Neste teste, o relacionamento é considerado significativo se a estatística F calculada for maior que o valor crítico do teste. Esta regressão é estatisticamente significante no nível de 0,01, pois 188,86 é maior que 7,1. Deve ter cuidado ao interpretar os resultados da regressão. No nosso exemplo, encontramos uma relação significativa entre a precipitação eo rendimento do pepino. No entanto, essa conclusão pode não ser o resultado de uma relação causal entre as duas variáveis. Uma terceira variável que está diretamente associada à produção de precipitação e pepino pode confundir a interpretação da análise. A verificação absoluta das associações entre variáveis ​​só pode ser confirmada com manipulação experimental. Coeficiente de Determinação Para medir quão forte é a correlação entre as duas variáveis, podemos determinar a quantidade de variação total em Y associada ao modelo de regressão. Essa relação é às vezes chamada de coeficiente de determinação e é representada pelo símbolo r 2. O valor do coeficiente de determinação varia de 1,00 a 0,00. O coeficiente de determinação calculado a partir do conjunto de dados acima foi de 0,76 ou 76 (conforme calculado abaixo). Esse valor sugere que 76 da variação em Y foi associada à mudança vista X a partir das observações do conjunto de dados. Coeficiente de determinação (Regression SS) (Total SS) (2.1115) (2.7826) 0.7588 Outra estatística de regressão útil que mede a força da correlação entre as variáveis ​​é o coeficiente de correlação. Esta estatística é muitas vezes representada pelo símbolo r e é determinada tomando a raiz quadrada do coeficiente de determinação. O valor do coeficiente de correlação varia de 1,00 a -1,00. Um valor de 0,0 indica que não há absolutamente nenhuma relação entre as variáveis ​​X e Y. A força da relação entre as variáveis ​​X e Y aumenta à medida que o valor de r se aproxima de 1.00 e -1.00. A correlação perfeita ocorre se r equivale a 1,00 (positivo perfeito) ou a -1,00 (negativo perfeito). Os coeficientes de correlação positivos indicam que um aumento no valor da variável X resulta em um aumento no valor da variável Y. Os coeficientes de correlação negativa indicam que um aumento no valor da variável X resulta em uma diminuição do valor da variável Y.9Pensificação estatística: notas sobre regressão e análise de séries temporais Fuqua School of Business Duke University Este site contém notas e materiais para Um curso eletivo avançado de previsão estatística que é ministrado na Fuqua School of Business, Duke University. Abrange modelos de previsões de regressão linear e de séries temporais, bem como princípios gerais de análise de dados pontuais. O material da série temporal é ilustrado com o resultado produzido pela Statgraphics. Um pacote de software estatístico que é altamente interativo e tem bons recursos para testar e comparar modelos, incluindo um procedimento de previsão de modelo paralelo que eu projetei há muitos anos. O material sobre análise de dados multivariados e regressão linear é ilustrado com o resultado produzido pela RegressIt. Um suplemento Excel gratuito desenvolvido mais recentemente, que oferece gráficos de qualidade de apresentação e suporte para boas práticas de modelagem. No entanto, essas notas são independentes da plataforma. Qualquer pacote de software estatístico deve fornecer as capacidades analíticas necessárias para os vários tópicos abordados aqui. 1. Conheça seus dados 2. Introdução à previsão: os modelos mais simples

No comments:

Post a Comment