Régression linéaire¶
Dans cette section, nous explorerons plus avant les concepts d’algorithmes ML linéaires, mais maintenant notre tâche sera de prédire les réponses en termes de valeurs continues, au lieu de classes discrètes comme nous l’avons fait en classification linéaire. En prenant l’application ML mentionnée dans l’introduction à ML](https://
La régression linéaire se concentre sur la modélisation de la relation entre les variables d’entrée (caractéristiques) et une variable cible continue. Il suppose une relation linéaire entre les fonctionnalités d’entrée et la variable cible.
Ici encore, notre objectif est de trouver la ligne la mieux adaptée (ou hyperplane dans des dimensions plus élevées) qui minimise la différence entre les valeurs prévues et les valeurs cibles réelles. À cette fin, nous couvrirons :
Le critère des moindres carrés pour quantifier l’erreur de formation en régression linéaire
L’algorithme de descente du gradient stochastique (SDG), utilisé dans le processus d’entraînement d’un modèle de régression linéaire
Terme de régularisation pour la régression linéaire
Les sources d’erreur dans la régression linéaire
Réduction des risques empiriques¶
Fonction objective¶
Comme nous l’avons vu dans l’introduction à ML](https://
Une des fonctions objectives que nous pouvons utiliser en régression linéaire est Risque empirique (). Nous exprimons le risque empirique en termes de mesure des pertes, qui ne reflète que l’écart entre les prévisions du modèle et les valeurs cibles (ou les étiquettes) de notre ensemble de données de formation, et ne tient donc pas compte de la régularisation. L’objectif de la minimisation empirique du risque () est de trouver un modèle qui minimise l’écart entre les prévisions et les observations sur les données de formation, en supposant qu’il généralisera bien les données invisibles. Ainsi, nous pouvons définir comme suit:
où est le nombre d’exemples de formation, est l’exemple de formation -th (vectorielle et étiquette, respectivement), et est une fonction de perte générique. Notez que $\cdot§ indique un produit point.
Une façon courante d’exprimer les écarts entre les prédictions et les observations sur les données de formation est de calculer l’erreur carrée, , qui donne la fonction normale des moindres carrés (OLS) objectif:
Know more
La mesure des écarts entre les prévisions du modèle et les valeurs d’étiquette à utiliser comme fonction de perte est une pratique courante dans les problèmes d’optimisation pour plusieurs raisons :
Simplicité : Le quadrillage des écarts simplifie la formulation mathématique de la fonction perte. Il élimine la nécessité de considérer la direction de l’écart (positif ou négatif) et veille à ce que tous les écarts contribuent positivement à la perte. En outre, la quadrature préserve les belles propriétés mathématiques nécessaires à l’optimisation, comme être différentiable et convexe.
Mettre l’accent sur les erreurs importantes : le quadrillage des écarts amplifie l’impact des erreurs plus importantes par rapport aux erreurs plus petites. En classant les écarts, la fonction de perte pénalise les écarts significatifs plus sévèrement, ce qui peut être souhaitable dans de nombreuses applications. Cet accent mis sur les erreurs importantes peut amener le processus d’optimisation à se concentrer sur la réduction des aberrations et l’amélioration de la précision globale.
Différenciabilité : Le quadrillage des écarts rend la fonction de perte différentiable, ce qui est crucial pour les algorithmes d’optimisation qui comptent sur les gradients pour mettre à jour les paramètres du modèle. La capacité de calculer les dérivés permet une optimisation efficace en utilisant des méthodes basées sur le gradient comme la descente du gradient ou la descente du gradient stochastique. Ces méthodes ajuster itérativement les paramètres du modèle dans la direction qui minimise la perte.
Convexité: La perte carrée est une fonction convexe, ce qui signifie qu’elle a un minimum global unique. Convexity simplifie le processus d’optimisation car il garantit que la fonction de perte a une solution unique, et les algorithmes d’optimisation peuvent converger vers cette solution de manière fiable. Les fonctions de perte non convexes peuvent avoir plusieurs minima locaux, ce qui peut rendre l’optimisation plus difficile.
Algorithme d’apprentissage¶
Maintenant, nous allons utiliser l’algorithme de descente de gradient stochastique (SDG) pour mettre à jour notre modèle . Rappelons que nous le faisons en ajustant les paramètres du modèle avec le gradient de notre fonction objective, c’est-à-dire le risque empirique, évalué à chaque exemple de formation. Ainsi, nous renvoyons vers la direction opposée au gradient . Notez que la fonction ci-dessus, définie avec l’erreur carrée comme fonction de perte, est différentiable partout. Nous calculons le gradient du risque empirique, qui donne:
Ainsi, nous pouvons résumer notre algorithme d’apprentissage comme suit:
Initialiser
Choisir aléatoirement
Mettre à jour , afin que :
où est le taux d’apprentissage.
Notez que cet algorithme d’apprentissage est très semblable à celui du classement linéaire.
Régularisation : régression de la crête¶
Fonction objective¶
Jusqu’à présent, notre problème d’optimisation pour la formation d’un modèle de régression linéaire ne vise qu’à minimiser l’erreur de formation (minimisation du risque empirique ou MCE). Cependant, un terme de régularisation est crucial dans la plupart des cas sinon notre modèle ne peut pas généraliser pour d’autres ensembles de données (en plus de l’ensemble de données de formation entre les mains). Ainsi, nous allons maintenant introduire un terme de régularisation à notre fonction objective, qui constitue maintenant un problème de régression ridge. La régression de la crête introduit un terme de régularisation, souvent appelé « pénalité de ridge » ou « pénalité de L2 » à la fonction objective ordinaire des moindres carrés (SLO). Ce terme de pénalité () contrôle la complexité du modèle en rétrécissant (i.e., coefficients de régression) vers zéro. Ainsi, la fonction objective pour la régression des crêtes est :
où est le paramètre de régularisation que nous avons couvert dans le Classement linéaire.
Algorithme d’apprentissage¶
Comme nous l’avons fait dans la méthode Empirical Risk Minimization (ERM), nous pouvons également appliquer l’algorithme de descente stochastique dans la régression des crêtes, seulement maintenant nous devons prendre le gradient de la nouvelle fonction objective () et l’utiliser pour mettre à jour à chaque itération à travers l’ensemble de données de formation.
D’abord élargissons tous les termes de :
Le gradient peut maintenant être calculé comme suit:
Ainsi, nous pouvons résumer notre algorithme d’apprentissage comme suit:
Initialiser
Choisir aléatoirement
Mettre à jour , afin que :
où est le taux d’apprentissage.
Notez qu’en ajoutant un terme de régularisation à notre fonction objective, nous sommes maintenant préoccupés par la recherche d’un modèle optimal qui, plutôt que d’adapter parfaitement les données de formation, est capable de généraliser aussi d’autres ensembles de données. Nous le faisons parce que nous croyons que le modèle ne devrait pas être adapté à chaque élément de preuve faible ou de bruit contenu dans l’ensemble de données de formation. Au lieu de cela, nous introduisons le paramètre de régularisation , ce qui évite les changements , sauf lorsque les preuves sont suffisamment solides pour qu’une augmentation de . Au fur et à mesure que la valeur de augmente, l’erreur d’entraînement augmente, mais avec l’espoir que notre modèle généralisera mieux, donnant une erreur de test plus faible.
Erreur structurelle par rapport à l’estimation¶
Lors de la sélection d’un algorithme ML, nous faisons certaines hypothèses sur la relation entre les caractéristiques et les étiquettes. Dans le cas de la régression linéaire, l’hypothèse est que la relation entre les caractéristiques et les étiquettes peut être représentée par une équation linéaire. Si cette hypothèse est violée, comme lorsque la vraie relation est non linéaire, alors notre modèle aura une grande erreur structurelle car il ne peut pas saisir avec précision les modèles sous-jacents dans les données. Ainsi, l’erreur structurelle englobe les limites ou hypothèses faites par le modèle choisi, et elle représente l’erreur irréductible qui ne peut être éliminée quelle que soit la quantité de données de formation. * L’erreur d’estimation* est due à la nature finie des données d’entraînement et à l’incapacité de notre modèle à s’adapter ou à généraliser à partir de ces données. Des erreurs d’estimation peuvent se produire lorsque les données de formation disponibles sont limitées ou ne représentent pas adéquatement la véritable distribution sous-jacente du problème. Dans de tels cas, le modèle peut avoir du mal à saisir les vrais modèles et relations présents dans les données, entraînant des erreurs d’estimation plus élevées.