Amandes¶

Dans cette section, nous aborderons les concepts fondamentaux de classification non linéaire en introduisant le concept de noyaux. Tout d’abord, rappelons ce que nous avons vu jusqu’ici dans notre section sur Classement linéaire. Dans la classification linéaire, notre tâche consistait à classer les points de données à travers un hyperplan qui pourrait séparer linéairement l’ensemble de données dans l’espace de coordonnées des caractéristiques. Par exemple, dans un espace de fonctionnalités 3d, donc un vecteur de fonctionnalités comme $(x_1, x_2, x_3) \in \mathbb{R}^3$ , rappelez-vous que nos données sont considérées linéairement séparables s’il y a au moins un plan (pas une ligne) qui peut diviser les points. Contrairement à la classification linéaire, qui suppose une relation linéaire entre les caractéristiques d’entrée et les étiquettes de classe, les algorithmes de classification non linéaires utilisent diverses techniques pour saisir les modèles complexes et les limites de décision dans les données. En particulier, nous examinerons comment nous pouvons transformer nos données en un nouvel espace de coordination de dimension supérieure à travers kernels, qui nous aide à transformer le problème non linéaire en un problème linéaire.

Les noyaux nous permettent de transformer les données en un espace de caractéristiques de dimension supérieure où la séparation linéaire devient possible. Un exemple d’algorithme ML qui s’appuie sur des noyaux pour trouver le modèle complexe et les limites de décision dans les données est Support Vector Machine (SVM).

Transformation des caractéristiques¶

Nous allons maintenant voir comment la transformation des fonctionnalités fonctionne à travers un exemple 1d, c’est-à-dire, nous avons une fonctionnalité $x \in \mathbb{R}$ . La figure ci-dessous illustre les points de formation ( $n=3$ ).

Noter à partir de la figure que l’ensemble de données n’est pas séparable linéairement, du moins pas dans l’espace de caractéristique donné dans une dimension. Pour transformer ce problème en problème linéaire, nous pouvons effectuer une transformation de fonctionnalités ( $\phi (x)$ ) pour rechercher une limite de décision dans un espace à dimension supérieure. Dans cet exemple particulier, notez que nous pouvons transformer la fonctionnalité 1d en un nouveau vecteur de fonctionnalités 2d, où la dimension supplémentaire peut être vue comme une sorte de nouvelle fonctionnalité.

x \to \Phi(x) = [\Phi_1 \; \; \; \Phi_2] = [x \; \; \; x^2]

(1)

Original feature space

New feature space

Decision boundary in the new feature space

initial problem before feature transformation — Figure 1:1 : Formation des données dans l’espace initial.

En effectuant la transformation des fonctionnalités comme l’illustre l’étape 2 : formation des données dans le nouvel espace de fonctionnalités $\Phi(x)$ (voir figure ci-dessus), nous pouvons trouver un classificateur $h(x, \theta, \theta_o)$ avec une limite de décision définie par $\theta$ et le paramètre offset $\theta_0$ :

h (x, \theta, \theta_0) = sign(\theta \cdot \Phi(x) + \theta_0)\\ \therefore h (x, \theta, \theta_0) = sign(\theta_1 x + \theta_2 x^2 + \theta_0)

(2)

Exercise 1: Feature transformation with kernels

La figure ci-dessous montre un ensemble de données qui n’est pas linéairement séparable dans l’espace d’origine $x = [x_1, x_2]$ . Pouvez-vous penser à une fonction du noyau pour créer un espace de fonctionnalités plus haute dimension où il y a une limite de décision solvable par la classification linéaire ?

Figure 4:Exercice 1 sur les grains

Solution

Nous commençons à résoudre ce problème en rappelant l’équation d’une circonférence non centrée dans l’origine:

(x_1+a)^2+(x_2+b)^2 = c

(3)

Nous obtenons :

x_1^2 + 2 a x_1 + a^2 + x_2^2 + 2 b x_2 + b^2 -c = 0 \\

(4)

Les termes $a$ , $b$ et $c$ sont des constantes, donc nous pouvons simplifier l’équation à:

2 a x_1 + 2 b x_2 + x_1^2 + x_2^2 + C = 0 \\

(5)

où $C = (a^2 + b^2 - c)$ .

Notez que l’équation ci-dessus indique notre limite de décision non linéaire dans l’espace d’origine $x \in \mathbb{R}^2$ et devrait donc égaler l’expression $\theta \cdot \Phi(x) +\theta_0$ :

\theta \cdot \Phi(x) + \theta_0 = x_1^2 + 2 a x_1 + x_2^2 + 2 b x_2 + C

(6)

ce qui signifie que $\theta_0 = C$ , $\Phi(x) = [x_1 \;\; x_2 \;\; x_1^2 \;\; x_2^2]$ , et donc nous pouvons également trouver $\theta$ en termes de paramètres de circonférence:

\theta = [2a \;\; 2b \;\; 1 \;\; 1]

(7)

Amandes

Amandes¶

Transformation des caractéristiques¶

Plus bientôt...¶