La regressione lineare è uno strumento statistico che determina in che misura una linea retta si adatta a un insieme di dati associati. La linea retta che meglio si adatta a quei dati è chiamata la linea di regressione dei minimi quadrati. Questa linea può essere utilizzata in vari modi. Uno di questi usi è stimare il valore di una variabile di risposta per un dato valore di una variabile esplicativa. Legata a questa idea è quella di un residuo.
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
Per calcolare il residuo nei punti X = 5, sottraggiamo il valore previsto dal nostro valore osservato. Dal momento che il y la coordinata del nostro punto dati era 9, questo dà un residuo di 9 - 10 = -1.
Esistono diversi usi per i residui. Un uso è di aiutarci a determinare se disponiamo di un set di dati che ha un andamento lineare globale o se dovremmo considerare un modello diverso. La ragione di ciò è che i residui aiutano ad amplificare qualsiasi modello non lineare nei nostri dati. Ciò che può essere difficile da vedere guardando un diagramma a dispersione può essere più facilmente osservato esaminando i residui e un corrispondente diagramma residuo.
Un altro motivo per considerare i residui è verificare che siano soddisfatte le condizioni per l'inferenza per la regressione lineare. Dopo la verifica di un andamento lineare (controllando i residui), controlliamo anche la distribuzione dei residui. Per poter eseguire l'inferenza di regressione, vogliamo che i residui della nostra linea di regressione siano distribuiti approssimativamente normalmente. UN istogramma o stemplot dei residui aiuterà a verificare che questa condizione è stata soddisfatta.