Was ist der Unterschied zwischen Gini-Verunreinigung und Entropie im Entscheidungsbaum?


Antwort 1:

Gini-Verunreinigung und Entropie sind sogenannte Auswahlkriterien für Entscheidungsbäume. Im Wesentlichen helfen sie Ihnen bei der Bestimmung eines guten Aufteilungspunkts für Stamm- / Entscheidungsknoten in Klassifizierungs- / Regressionsbäumen (die folgenden Beispiele beziehen sich auf einen Klassifizierungsbaum). Entscheidungsbäume werden nach Merkmal und entsprechendem Aufteilungspunkt aufgeteilt, was zu dem größten Informationsgewinn (IG) für ein bestimmtes Kriterium (in diesem Beispiel Gini oder Entropie) führt. Lose können wir Informationsgewinn als definieren

IG = Information vor dem Teilen (Elternteil) - Information nach dem Teilen (Kinder)

Für ein klareres Verständnis von Eltern und Kindern sehen Sie sich den Entscheidungsbaum unten an.

Eine genauere Formel für die Informationsgewinnformel finden Sie weiter unten.

Da Klassifizierungsbäume binäre Teilungen haben, kann die Formel in die folgende Formel vereinfacht werden.

Zwei gebräuchliche Kriterien, die zum Messen der Verunreinigung eines Knotens verwendet werden, sind der Gini-Index und die Entropie.

Zum besseren Verständnis dieser Formeln zeigt das folgende Bild, wie der Informationsgewinn für einen Entscheidungsbaum mit Gini-Kriterium berechnet wurde.

Das folgende Bild zeigt, wie der Informationsgewinn für einen Entscheidungsbaum mit Entropie berechnet wurde.

Ich werde hierauf nicht näher eingehen, da anzumerken ist, dass verschiedene Verunreinigungsmaße (Gini-Index und Entropie) normalerweise zu ähnlichen Ergebnissen führen. Die folgende Grafik zeigt, dass Gini-Index und Entropie sehr ähnliche Verunreinigungskriterien sind. Ich vermute, einer der Gründe, warum Gini der Standardwert in scikit-learn (Python-Bibliothek) ist, ist, dass die Berechnung der Entropie möglicherweise etwas langsamer ist (weil ein Logarithmus verwendet wird).

Unterschiedliche Verunreinigungsmaße (Gini-Index und Entropie) führen normalerweise zu ähnlichen Ergebnissen. Vielen Dank an Data Science StackExchange und Sebastian Raschka für die Inspiration für dieses Diagramm.

Wenn Sie mehr über die Funktionsweise von Entscheidungsbäumen erfahren möchten, klicken Sie hier, um weitere Informationen zu erhalten.


Antwort 2:

Zwei Metriken zur Auswahl, wie ein Baum geteilt werden soll. Gini-Messung ist die Wahrscheinlichkeit, dass eine Zufallsstichprobe falsch klassifiziert wird, wenn wir zufällig ein Etikett entsprechend der Verteilung in einer Branche auswählen.

Entropie ist ein Maß für Information (oder vielmehr deren Fehlen). Sie berechnen den Informationsgewinn, indem Sie eine Aufteilung vornehmen. Welches ist der Unterschied in Eingriffen. Dies misst, wie Sie die Unsicherheit über das Etikett verringern.

Sehen:

https: //en.m.wikipedia.org/wiki / ...