Was ist der Unterschied zwischen Nachahmungslernen und Bestärkungslernen?


Antwort 1:

Das Gemeinsame:

Etwas verallgemeinernd handelt es sich bei beiden um Lernmethoden für sequentielle Aufgaben, bei denen der Lernende versucht, eine "Richtlinie" (welche Maßnahmen in einem bestimmten Zustand zu ergreifen sind) zu entwickeln, um die beste Leistung zu erzielen.

Der Unterschied:

Beim Imitationslernen beobachtet der Lernende zunächst die Handlungen eines (oft menschlichen) Experten während der Trainingsphase. Der Lernende verwendet dieses Trainingsset dann, um eine Richtlinie zu erlernen, die versucht, die vom Experten demonstrierten Aktionen nachzuahmen, um die beste Leistung zu erzielen.

Beim Reinforcement Learning gibt es dagegen keinen solchen Experten. Stattdessen hat der Agent eine "Belohnungs" -Funktion und verwendet gierige / ausbeuterische Strategien, um den Zustand und den Aktionsraum effektiv zu erkunden und sich selbst (unter Verwendung von Versuch und Irrtum) eine optimale Richtlinie auszudenken.

Bildhaftes Beispiel

Betrachten wir das selbstfahrende Mittel. Der Staatsraum kann das sein, was der Agent jederzeit sieht - die Straße, Schilder, andere Autos, Fußgänger. Die Aktionen können lenken, beschleunigen, brechen.

Eine Nachahmungslernagentin würde einen menschlichen Expertenfahrer beobachten und ihre Handlungen in den verschiedenen Staaten registrieren. Auf dieser Grundlage wird eine Richtlinie erstellt, welche Maßnahmen in einem bestimmten Staat basierend auf den Maßnahmen des Experten zu ergreifen sind. Zur Laufzeit wird es sein Bestes geben, um die richtige Aktion basierend auf der Politik zu approximieren, da die Staaten nicht genau ähnlich sind und sich ein probabilistisches Element einschleicht.

Ein Agent für das Reinforcement Learning erhält eine Belohnungsfunktion. Beispielsweise wird jede Sekunde, die vergeht, als positiver Punkt gewertet. Wenn er einen Fußgänger oder ein anderes Auto stürzt oder trifft, endet die Aufgabe mit null Belohnungen. Der Agent beginnt dann mit zufälligen Aktionen und lernt durch Ausprobieren, welche Aktionen die Belohnungen maximieren und welche Aktionen zu Null führen. Nach einer Weile, wenn die Richtlinie gut genug ist (basierend auf Leistungsmetriken), verwendet der Agent die Richtlinie zum Fahren.

Beide Methoden führen also zur gleichen Laufzeitstrategie. Nur die Art und Weise, wie die Politik gelernt wird, ist anders. Wie Sie sich vorstellen können, gibt es verschiedene Vor- und Nachteile, wann welche Methode angewendet werden muss. Versuch und Irrtum können für einige Aufgaben sehr kostspielig oder ineffizient sein, während die Nachahmung für andere sehr komplex, unmöglich oder einschränkend sein kann.


Antwort 2:

Beim Reinforcement Learning versucht ein Agent, seine Belohnungen in einer Umgebung zu maximieren.

Grundsätzlich ist es das Ziel des Agenten, eine optimale Richtlinie zu finden.

ZWEI-E-Mechanismus: -

Ich persönlich nenne es in meinen Forschungsarbeiten oder in meiner Kommunikation ZWEI-E-Mechanismus. Grundsätzlich findet der Agent "das Beste, was er tun kann", indem er eine Explorations- und Ausbeutungsstrategie mischt, während er eine Belohnungsfunktion abfragt. Also, während der Agent Wenn der Agent ein Signal / eine Rückkehr aus der Umgebung erhält, versucht er, dieses Signal / diese Belohnung zu maximieren.

Andererseits besteht Imitationslernen darin, die in den Demonstrationen beobachtete Expertenstrategie direkt auf nicht besuchte Zustände zu verallgemeinern (und ist daher nahe an der Klassifizierung, wenn es eine endliche Reihe möglicher Entscheidungen gibt). Das heißt, ein Agent versucht, einem „Lehreragenten“ durch Belohnungen zu folgen, und dies unter der Annahme, dass der Lehreragent seine Belohnungen maximiert. Diese Richtlinie wird als optimal angenommen und kann von einem anderen Agenten oder möglicherweise einem menschlichen Experten gegeben werden , um herauszufinden, was die Belohnungsfunktion ist. Was man beim Imitationslernen erreichen will, ist, die Belohnungsfunktion wiederherzustellen.

In der Praxis kann der „Lehreragent“ häufig eine andere algorithmische Aktion sein, der der Agent folgen soll (z. B. RL-Agenten, die versuchen, SGD zu lernen).

Unterstützung für Imitationslernen

warum IL in der Robotik eingesetzt wird.

Man kennt nicht immer die Belohnung, die man bei der Ausführung einer Aufgabe erhält, man weiß jedoch möglicherweise, "was das Richtige ist (optimale Richtlinie)".

Ein praktisches Beispiel hierfür ist, wenn man Rechenmodelle für tierisches oder menschliches Verhalten erstellen möchte.

Auf intuitive Weise zum Konzept:

Man kann das Lernen der Verstärkung und das Lernen der inversen Verstärkung vergleichen als:

Reinforcement Learning ist das Lernen von Dingen in Ihrem EIGENEN, dh SELBSTLERNEN, während Nachahmungslernen ein Experte ist, der Sie anleitet, was zu tun ist. Aus diesem Grund wird es auch als Lehrlingsausbildung bezeichnet.

Sicher