Kernmaterial¶

In diesem Abschnitt werden wir grundlegende Konzepte der nichtlinearen Klassifizierung durch die Einführung des Konzepts von Kerneln abdecken. Lassen Sie uns zunächst daran erinnern, was wir bisher in unserem Abschnitt über Lineare Klassifizierung gesehen haben. In der linearen Klassifikation bestand unsere Aufgabe darin, Datenpunkte durch ein Hyperplan zu klassifizieren, das den Datensatz in den Merkmalen den Koordinatenraum linear trennen könnte. Zum Beispiel in einem 3d-Funktionsraum, also einem Merkmalsvektor wie $(x_1, x_2, x_3) \in \mathbb{R}^3$ , erinnern Sie daran, dass unsere Daten als linear trennbar angesehen werden, wenn es mindestens eine Ebene (nicht Zeile), die die Punkte teilen kann. Im Gegensatz zur linearen Klassifizierung, die eine lineare Beziehung zwischen Eingabemerkmalen und Klassenetiketten einnimmt, verwenden nichtlineare Klassifizierungsalgorithmen verschiedene Techniken, um komplexe Muster und Entscheidungsgrenzen in den Daten zu erfassen. Insbesondere werden wir uns anschauen, wie wir unsere Daten durch Kernels in einen neuen Koordinatenraum höherer Dimension transformieren können, der uns dabei hilft, das nichtlineare Problem in einen linearen zu verwandeln.

Kernels ermöglichen es uns, Daten in einen überdimensionalen Funktionsraum zu transformieren, in dem eine lineare Trennung möglich wird. Ein Beispiel für den ML-Algorithmus, der auf Kernel basiert, um komplexe Muster und Entscheidungsgrenzen in den Daten zu finden, ist Support Vector Machine (SVM).

Eigenschaften¶

Wir werden nun sehen, wie Feature-Transformation über ein Beispiel funktioniert, d.h. wir haben eine Funktion $x \in \mathbb{R}$ . Die nachstehende Abbildung zeigt die Ausbildungspunkte ( $n=3$ ).

Beachten Sie aus der Figur, dass der Datensatz nicht linear trennbar ist, zumindest nicht in dem angegebenen Merkmalsraum in 1 Dimension. Um dieses Problem zu einem linearen Problem zu machen, können wir eine Feature-Transformation ( $\phi (x)$ ) durchführen, um eine Entscheidungsgrenze in einem überdimensionalen Raum zu suchen. In diesem speziellen Beispiel sei darauf hingewiesen, dass wir das 1d-Feature in einen neuen 2d-Featurevektor transformieren können, wo die zusätzliche Dimension als eine Art neues Feature angesehen werden kann.

x \to \Phi(x) = [\Phi_1 \; \; \; \Phi_2] = [x \; \; \; x^2]

(1)

Original feature space

New feature space

Decision boundary in the new feature space

initial problem before feature transformation — Figure 1:1: Trainingsdaten im ersten Funktionsraum.

Durch die Ausführung der Feature-Transformation, wie in Schritt 2: Trainingsdatensatz im neuen Feature-Bereich $\Phi(x)$ (siehe Abbildung oben) dargestellt, finden wir einen Klassifikator $h(x, \theta, \theta_o)$ mit einer Entscheidungsgrenze von $\theta$ und den Offset-Parameter $\theta_0$ :

h (x, \theta, \theta_0) = sign(\theta \cdot \Phi(x) + \theta_0)\\ \therefore h (x, \theta, \theta_0) = sign(\theta_1 x + \theta_2 x^2 + \theta_0)

(2)

Exercise 1: Feature transformation with kernels

Die folgende Abbildung zeigt einen Datensatz, der im Original-Featureraum $x = [x_1, x_2]$ nicht linear trennbar ist. Können Sie an eine Kernelfunktion denken, um einen überdimensionalen Funktionsraum zu schaffen, in dem eine Entscheidungsgrenze durch lineare Klassifikation auflösbar ist?

Figure 4:Übung 1 auf Kernel

Solution

Wir beginnen, dieses Problem zu lösen, indem wir die Gleichung eines nicht im Ursprung zentrierten Umfangs erinnern:

(x_1+a)^2+(x_2+b)^2 = c

(3)

Erweitern der obigen Gleichung erhalten wir:

x_1^2 + 2 a x_1 + a^2 + x_2^2 + 2 b x_2 + b^2 -c = 0 \\

(4)

Die Begriffe $a$ , $b$ und $c$ sind Konstanten, so können wir die Gleichung vereinfachen:

2 a x_1 + 2 b x_2 + x_1^2 + x_2^2 + C = 0 \\

(5)

wo $C = (a^2 + b^2 - c)$ .

Beachten Sie, dass die obige Gleichung unsere nichtlineare Entscheidungsgrenze im Original-Featureraum $x \in \mathbb{R}^2$ bedeutet und somit den Ausdruck $\theta \cdot \Phi(x) +\theta_0$ :

\theta \cdot \Phi(x) + \theta_0 = x_1^2 + 2 a x_1 + x_2^2 + 2 b x_2 + C

(6)

Das bedeutet, dass $\theta_0 = C$ , $\Phi(x) = [x_1 \;\; x_2 \;\; x_1^2 \;\; x_2^2]$ , und so finden wir auch $\theta$ in Bezug auf die Umfangparameter:

\theta = [2a \;\; 2b \;\; 1 \;\; 1]

(7)

Kernmaterial

Kernmaterial¶

Eigenschaften¶

Mehr kommen bald...¶