Capítulo 27 Regressão
A regressão é uma técnica estatística usada para estudar a relação entre uma variável de interesse (chamada de variável dependente ou resposta) e uma ou mais variáveis que podem influenciá-la (chamadas de variáveis independentes ou preditoras). O objetivo principal é prever ou explicar o comportamento da variável resposta a partir das informações das variáveis preditoras.
Regressão Linear Simples:
É o tipo mais básico de regressão, analisando a relação entre duas variáveis: uma resposta (por exemplo, peso) e uma preditora (por exemplo, altura). A relação é representada por uma linha reta:
\[
\text{Resposta} = a + b \times \text{Preditora}
\]
Exemplo: Prever o peso de uma pessoa a partir de sua altura. O modelo estima qual seria o peso esperado para cada altura.
Regressão Linear Múltipla:
Quando queremos analisar o efeito de duas ou mais variáveis preditoras sobre a variável resposta, usamos a regressão linear múltipla. A equação fica:
\[
\text{Resposta} = a + b_1 \times \text{Preditora}_1 + b_2 \times \text{Preditora}_2 + \ldots
\]
Exemplo: Prever o preço de uma casa considerando área, número de quartos e localização.
Regressão Logística:
É usada quando a resposta é categórica, por exemplo: sim/não, doente/sadio, aprovado/reprovado. Em vez de prever um número, ela estima a probabilidade de um determinado evento ocorrer. Exemplo: Prever a chance de um paciente ter uma certa doença com base em exames. O resultado é sempre um valor entre 0 e 1 (uma probabilidade).
Outros Modelos de Regressão:
Além dos modelos acima, existem outros tipos de regressão para diferentes situações, como:
- Regressão de Poisson: para contagem de eventos (exemplo: número de acidentes por mês);
- Regressão de Prais-Winsten: utilizada em séries temporais, especialmente quando os dados têm dependência ao longo do tempo (como dados econômicos mensais);
- Regressão polinomial: ajusta curvas em vez de retas, para relações não-lineares;
- Regressão robusta, Ridge, Lasso: abordam problemas específicos como dados com valores extremos ou quando há muitas variáveis preditoras.
Em resumo, a regressão é uma ferramenta poderosa e versátil, útil em diferentes áreas como saúde, economia, educação e ciências sociais. Ela nos ajuda a compreender relações, prever resultados e tomar decisões baseadas em dados, mesmo sem precisar de conhecimentos avançados em matemática.
27.1 Regressão Linear Simples
A correlação responde à pergunta: “Existe relação linear? Qual a força e o sentido dessa relação?”
A regressão linear simples vai além: além de indicar se existe relação, ela fornece uma equação que quantifica e permite prever uma variável a partir da outra.
A equação tem a forma:
\[ Y = a + bX \]
onde: - Y: variável resposta (dependente) - X: variável explicativa (independente) - a: intercepto (valor esperado de Y quando X = 0) - b: inclinação (quanto Y varia, em média, a cada unidade de X)
A regressão responde à pergunta: “Como prever Y a partir de X?”
É comum estudar primeiro a correlação, pois ela mostra se vale a pena tentar ajustar um modelo de regressão linear.
27.1.1 Regressão Linear Simples no R
Como exemplo, vamos estudar a relação entre a frequência cardíaca (x, em batimentos por minuto - bpm) e o comprimento do intervalo QT (y, em milissegundos) de um eletrocardiograma (ECG). O intervalo QT representa o tempo que o coração leva para se despolarizar e repolarizar, sendo um importante marcador clínico.
Vamos considerar a seguinte amostra:
# Frequência cardíaca (bpm)
x <- c(60,75,62,68,84,97,66,65,86,78,93,75,88)
# Intervalo QT (ms)
y <- c(403,363,381,367,341,317,401,384,342,377,329,377,349)
Vamos, primeiro, verificar o comportamento das variáveis pelo gráfio de dispersão:
plot(x, y,
xlab = "Frequência Cardíaca (bpm)",
ylab = "Intervalo QT (ms)",
pch = 19, col = "blue")
grid()
O teste de correlação nos fornece:
##
## Pearson's product-moment correlation
##
## data: x and y
## t = -8.2944, df = 11, p-value = 4.625e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.9787673 -0.7730054
## sample estimates:
## cor
## -0.9285203
- Coeficiente de correlação (r): -0,93
- Valor de t: -8,29
- Graus de liberdade (df): 11
- Valor-p: 0,0000046
- Intervalo de confiança (95%): de -0,98 a -0,77
O que isso significa?
- Força e direção: O coeficiente de correlação de Pearson (r = -0,93) indica uma correlação negativa muito forte entre as variáveis x e y. Isso significa que, à medida que uma variável aumenta, a outra tende a diminuir de forma bastante consistente.
- Significância estatística: O valor-p (p < 0,001) mostra que essa correlação é estatisticamente significativa. Ou seja, é extremamente improvável que essa relação forte e negativa tenha ocorrido por acaso.
- Intervalo de confiança: O intervalo de -0,98 a -0,77 indica que, com 95% de confiança, a verdadeira correlação na população está dentro desse intervalo — sempre indicando uma relação negativa forte.
- Hipótese nula: Como o valor-p é muito pequeno, rejeitamos a hipótese nula de que não existe correlação linear entre x e y.
Como há uma correlação linear forte e significativa, faz sentido estudar um modelo de regressão linear para quantificar e prever a relação entre essas variáveis.
Para ajustarmos um modelo onde o intervalo QT é explicado pela frequência cardíaca no R, usamos a função lm()
, onde lm significa linear model.
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 520.668 -2.044
O modelo ajustado de regressão linear simples foi:
\[ \text{Intervalo QT} = 520,67 - 2,04 \times \text{Frequência Cardíaca} \]
Interpretação dos coeficientes:
Intercepto (520,67):
Este valor representa a estimativa do intervalo QT (em milissegundos) quando a frequência cardíaca (x) é zero. Embora uma frequência cardíaca de zero não faça sentido fisiológico, o intercepto é necessário para construir a reta de regressão e serve como referência matemática.Inclinação (-2,04):
Esse coeficiente indica que, para cada aumento de 1 batimento por minuto (bpm) na frequência cardíaca, o intervalo QT diminui, em média, cerca de 2,04 milissegundos.
Ou seja, existe uma relação negativa: quanto maior a frequência cardíaca, menor tende a ser o intervalo QT.
O resumo da regressão é obtido a partir da função summary()
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.689 -5.418 -2.900 8.188 15.750
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 520.6683 19.1158 27.238 1.90e-11 ***
## x -2.0438 0.2464 -8.294 4.63e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.38 on 11 degrees of freedom
## Multiple R-squared: 0.8622, Adjusted R-squared: 0.8496
## F-statistic: 68.8 on 1 and 11 DF, p-value: 4.625e-06
Valor-p para ambos os coeficientes (p < 0,001): Os dois coeficientes são significativos, ou seja, existe evidência estatística muito forte de que ambos são diferentes de zero.
R² (Multiple R-squared): 0,86: Aproximadamente 86% da variação do intervalo QT é explicada pela frequência cardíaca. É um valor alto, indicando que o modelo ajusta bem os dados.
R² Ajustado (0,85): Leva em conta o número de variáveis e tamanho da amostra, e também é alto.
Erro padrão residual (Residual standard error: 10,38): Mede o desvio médio dos pontos em relação à reta ajustada (quanto menor, melhor).
Resíduos: Representam a diferença entre os valores observados e os previstos pelo modelo. Os valores mínimos e máximos indicam a dispersão dos erros.
F-statistic: 68,8, p-value: 4,6e-06: Teste global do modelo, confirma que a relação encontrada é altamente significativa.
O modelo de regressão linear simples mostra que existe uma forte relação linear negativa e estatisticamente significativa entre a frequência cardíaca e o intervalo QT: quanto maior a frequência cardíaca, menor tende a ser o intervalo QT. O modelo explica a maior parte da variação dos dados, sendo útil para previsões e interpretações clínicas dessa relação.
O intervalos de confiança para os coeficientes da reta é dado por:
## 2.5 % 97.5 %
## (Intercept) 478.594702 562.741896
## x -2.586164 -1.501475
Intercepto (a):
O intervalo de confiança de 95% para o intercepto vai de 478,59 a 562,74. Isso significa que, com 95% de confiança, o verdadeiro valor do intercepto está dentro desse intervalo. O intercepto representa o valor estimado do intervalo QT quando a frequência cardíaca é zero (valor teórico/matemático).Inclinação (b):
O intervalo de confiança de 95% para a inclinação vai de -2,59 a -1,50. Como o intervalo é totalmente negativo, reforça que a relação entre frequência cardíaca e intervalo QT é negativa: a cada aumento de 1 bpm na frequência cardíaca, o intervalo QT diminui, em média, entre 1,50 e 2,59 ms.
Limitações e Cuidados na Regressão Linear
Apesar do modelo indicar uma associação significativa, é importante considerar algumas limitações e pontos de atenção:
- Extrapolação: O modelo é válido apenas para a faixa de dados observados. Prever valores de QT para frequências cardíacas muito fora do intervalo observado pode gerar resultados sem sentido.
- Suposições do modelo:
- Linearidade: A relação entre as variáveis deve ser aproximadamente linear.
- Normalidade dos resíduos: Os resíduos (erros) devem ser aproximadamente distribuídos normalmente.
- Homoscedasticidade: A variância dos resíduos deve ser constante ao longo dos valores previstos.
- Independência: As observações devem ser independentes entre si. Recomenda-se sempre checar essas suposições usando gráficos de resíduos e testes estatísticos.
- Possíveis valores extremos (outliers): Valores muito diferentes dos demais podem influenciar fortemente o ajuste, distorcendo os resultados.
- Correlação não implica causalidade: A regressão mostra associação, mas não garante que uma variável causa a outra.
27.1.2 O que deve ser checado ao ajustar uma regressão linear?
- Gráfico de resíduos: Para avaliar linearidade, homoscedasticidade e detectar outliers.
- Histograma/QQ-plot dos resíduos: Para verificar a normalidade dos resíduos.
- Verificar influências: Avaliar se algum ponto influencia demais o resultado (diagnóstico de outliers/influência).
- Intervalos de confiança: Analisar a precisão das estimativas dos parâmetros.
- R² e R² ajustado: Avaliar o quanto do comportamento da variável resposta é explicado pelo modelo.
27.2 Regressão Linear Múltipla
Depois de entender a regressão linear simples, é fácil expandir para a regressão linear múltipla, onde podemos incluir mais de uma variável preditora para explicar a variável resposta. No nosso exemplo, além da frequência cardíaca (x), vamos acrescentar a idade dos indivíduos (z), que também pode influenciar o intervalo QT do eletrocardiograma (y).
Vamos supor os seguintes valores de idade para os mesmos indivíduos:
# Frequência cardíaca (bpm)
x <- c(60,75,62,68,84,97,66,65,86,78,93,75,88)
# Intervalo QT (ms)
y <- c(403,363,381,367,341,317,401,384,342,377,329,377,349)
# Idade (anos) - exemplo hipotético
z <- c(25,40,30,22,53,60,28,27,50,35,59,41,55)
Vamos ajustar agora um modelo que considera tanto a frequência cardíaca quanto a idade como preditoras do intervalo QT:
- O modelo ajustado tem a forma: \[ \text{QT} = a + b_1 \times \text{Frequência Cardíaca (x)} + b_2 \times \text{Idade (z)} \]
##
## Call:
## lm(formula = y ~ x + z)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.055 -5.737 -2.952 8.566 15.082
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 514.3929 37.2473 13.810 7.72e-08 ***
## x -1.8827 0.8466 -2.224 0.0504 .
## z -0.1505 0.7534 -0.200 0.8457
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.87 on 10 degrees of freedom
## Multiple R-squared: 0.8627, Adjusted R-squared: 0.8352
## F-statistic: 31.42 on 2 and 10 DF, p-value: 4.88e-05
Modelo ajustado:
\[
\text{QT} = 514,39 - 1,88 \times \text{Frequência Cardíaca (x)} - 0,15 \times \text{Idade (z)}
\]
Intercepto (514,39):
Valor estimado do QT quando frequência cardíaca e idade são zero (valor teórico, apenas referência matemática).Frequência Cardíaca (x):
O coeficiente é -1,88, ou seja, para cada aumento de 1 bpm, o QT diminui em média 1,88 ms, mantendo a idade constante.
O valor-p (0,0504) é limítrofe, indicando que a influência da frequência cardíaca sobre o QT ainda é significativa, mas no limite do nível de significância tradicional (5%).Idade (z):
O coeficiente é -0,15, ou seja, para cada aumento de 1 ano de idade, o QT diminui, em média, 0,15 ms, mantendo a frequência cardíaca constante.
No entanto, o valor-p (0,8457) mostra que essa associação não é estatisticamente significativa — ou seja, não há evidência de que a idade tenha efeito relevante sobre o QT neste conjunto de dados.
Qualidade do ajuste
- R² (0,86):
Aproximadamente 86% da variação do QT é explicada pelo modelo com as duas variáveis preditoras, indicando bom ajuste. - R² ajustado (0,83):
Leva em conta o número de variáveis, também indicando bom ajuste. - Erro padrão residual (10,87):
Média dos desvios dos pontos em relação à reta ajustada, semelhante ao modelo simples.
Análise dos resíduos
- A distribuição dos resíduos sugere que o modelo está adequado, mas sempre é recomendado visualizar os gráficos de resíduos para avaliar possíveis violações das suposições.
Teste F
- F-statistic: 31,42, p-value: 4,88e-05:
O modelo como um todo é altamente significativo, ou seja, pelo menos uma das variáveis preditoras está relacionada ao QT.
Conclusão
- O modelo de regressão múltipla mostra que, mantendo a idade constante, a frequência cardíaca segue sendo um preditor importante e significativo para o intervalo QT.
- A idade, por outro lado, não contribuiu de forma significativa para explicar o QT nesse exemplo.
- O ajuste da regressão múltipla no R é simples e a interpretação amplia a compreensão das relações entre várias variáveis e a resposta.
- Importante: Sempre verifique as suposições do modelo e a significância de cada preditor.
27.3 No R é fácil
A sintaxe para ajustar a regressão múltipla é muito parecida com a da simples, basta acrescentar as variáveis ao modelo:
Se quiser incluir ainda mais variáveis, basta adicioná-las na fórmula, separadas por +
.
Visualização dos resíduos
É importante, como sempre, checar os resíduos para garantir que as suposições do modelo continuam válidas:
Resíduos vs Valores Ajustados
- Objetivo: Avaliar linearidade e homocedasticidade (variância constante dos resíduos).
- Interpretação: Os resíduos estão distribuídos de forma aproximadamente aleatória ao redor de zero, sem padrões claros. Isso sugere que a relação linear é adequada e que a variância dos resíduos é razoavelmente constante. Não há grandes evidências de problemas de ajuste, ainda que um ou outro ponto se afaste mais do centro (possíveis outliers).
Q-Q Plot dos Resíduos
- Objetivo: Verificar se os resíduos seguem uma distribuição normal (suposição importante para testes de hipóteses na regressão).
- Interpretação: Os pontos seguem bem a linha reta, indicando que a normalidade dos resíduos é atendida na maior parte dos casos. Pequenos desvios nas extremidades são toleráveis, especialmente com amostras pequenas, como neste exemplo.
Scale-Location (Homocedasticidade)
- Objetivo: Avaliar se a variância dos resíduos é constante para todos os valores ajustados (homocedasticidade).
- Interpretação: Os pontos estão relativamente dispersos de forma homogênea ao longo do eixo dos valores ajustados, sem formar um funil ou padrão crescente/decrescente marcante. Isso reforça que a suposição de homocedasticidade está sendo atendida.
Resíduos Padronizados vs Leverage
- Objetivo: Identificar pontos com alto potencial de influência no modelo (outliers ou observações influentes).
- Interpretação: A maioria dos pontos está dentro dos limites aceitáveis de leverage e resíduos. Apenas um ou dois pontos apresentam valores de leverage mais altos, mas sem exceder drasticamente os limites de distância de Cook. Isso sugere que não há observações extremamente influentes comprometendo o modelo.
Os diagnósticos gráficos indicam que: - As suposições do modelo de regressão múltipla estão razoavelmente bem atendidas: linearidade, normalidade dos resíduos, homocedasticidade e ausência de pontos influentes extremos. - O modelo é adequado para os dados analisados, com apenas leves indícios de possíveis outliers, mas sem comprometer as conclusões.
27.4 Exercício
O exercício “nutrientes em cereais matinais” foi retirado do livro Estatística Básica de Larson & Farber.
A U.S. Food and Drug Administration (FDA) exige a rotulagem nutricional para a maioria dos alimentos. Sob os regulamentos da FDA, os produtores são obrigados a listar as quantidades de certos nutrientes em seus alimentos, tais como: calorias, açúcar, gordura e carboidratos. Essa informação nutricional é exibida em uma tabela na embalagem do alimento.
A Tabela mostra o teor nutricional para uma xícara de 21 cereais matinais diferentes.
C = calorias
S = açúcar em gramas
F = gordura em gramas
R = carboidratos em gramas
C | S | F | R |
---|---|---|---|
100 | 12 | 0.5 | 25 |
130 | 11 | 1.5 | 29 |
110 | 10 | 1.0 | 29 |
130 | 15 | 2.0 | 31 |
130 | 13 | 1.5 | 29 |
120 | 3 | 0.5 | 26 |
100 | 2 | 0.0 | 24 |
120 | 0 | 0.0 | 29 |
150 | 16 | 1.5 | 31 |
110 | 4 | 0.0 | 25 |
110 | 12 | 1.0 | 23 |
160 | 15 | 1.5 | 35 |
150 | 12 | 2.0 | 36 |
150 | 15 | 1.5 | 29 |
110 | 15 | 0.0 | 29 |
190 | 13 | 1.5 | 45 |
100 | 3 | 0.0 | 23 |
120 | 4 | 0.5 | 23 |
120 | 11 | 1.5 | 28 |
120 | 11 | 1.0 | 29 |
130 | 5 | 0.5 | 29 |
1. Use o R para obter um diagrama de dispersão dos seguintes pares \((x, y)\) no conjunto de dados.
- (Calorias, açúcar.)
- (Calorias, gordura.)
- (Calorias, carboidratos.)
- (Açúcar, gordura.)
- (Açúcar, carboidratos.)
- (Gordura, carboidratos.)
2. Dos diagramas de dispersão no Exercício 1, quais pares de variáveis parecem ter uma correlação linear forte?
3. Use o R para encontrar o coeficiente de correlação para cada par de variáveis no Exercício 1. Qual tem a correlação linear mais forte?
4. Use tecnologia para encontrar a equação de uma reta de regressão para os seguintes pares de variáveis.
- (Calorias, açúcar.)
- (Calorias, carboidratos.)
5. Use os resultados do Exercício 4 para prever o seguinte:
- O teor de açúcar de uma xícara de cereal que tem 120 calorias.
- O teor de carboidrato de uma xícara de cereal que tem 120 calorias.
6. Use tecnologia para encontrar as equações de regressão múltipla dos seguintes modelos:
- \(C = b + m_1S + m_2F + m_3R\)
- \(C = b + m_1S + m_2R\)
7. Use as equações do Exercício 6 para prever as calorias em 1 xícara de cereal que tem 7 gramas de açúcar; 0,5 grama de gordura e 31 gramas de carboidratos.