Zur Seitenansicht
 

Titelaufnahme

Titel
A Regularization Study for Policy Gradient Methods / submitted by Florian Henkel
AutorInnenHenkel, Florian
Beurteiler / BeurteilerinWidmer, Gerhard
Betreuer / BetreuerinWidmer, Gerhard
ErschienenLinz, 2018
UmfangXII, 58 Blätter : Illustrationen
HochschulschriftUniversität Linz, Masterarbeit, 2018
SpracheEnglisch
DokumenttypMasterarbeit
Schlagwörter (DE)Reinforcement Learning / Policy Gradient Methods / Regularisierung / neuronale Netze / automatische Musikverfolgung
Schlagwörter (EN)reinforcement learning / policy gradient methods / regularization / neural networks / score following
URNurn:nbn:at:at-ubl:1-23268 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist gemäß den "Hinweisen für BenützerInnen" verfügbar
Dateien
A Regularization Study for Policy Gradient Methods [4.58 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Im Bereich des Supervised Machine Learning spielt das Konzept der Regularisierung eine wesentliche Rolle. Speziell bei neuronalen Netzen ist es notwendig, diese in ihrer Kapazität und Ausdrucksstärke einzuschränken, um sogenanntes Overfitting auf gegebene Trainingsdaten zu vermeiden. Während es für Supervised Machine Learning einige bekannte und häufig verwendete Techniken zur Regularisierung gibt, wie etwa L2-Normalization, Dropout oder Batch-Normalization, so ist deren Einfluss im Bezug auf Reinforcement Learning noch nicht erforscht. In dieser Arbeit geben wir eine Übersicht über Regularisierung in Verbindung mit Policy Gradient Methoden, einer Unterklasse von Reinforcement Learning, die auf neuronalen Netzen basiert. Wir vergleichen verschiedene modernste Algorithmen zusammen mit Regularisierungsmethoden für Supervised Machine Learning, um zu verstehen, wie die Generalisierungsfähigkeit bei Reinforcement Learning verbessert werden kann. Die Hauptmotivation, dieses Forschungsgebiet zu untersuchen, ist unsere aktuelle Arbeit im Bereich der automatischen Musikverfolgung, wo wir versuchen, Agenten mit Hilfe von Reinforcement Learning beizubringen, Musik zu hören und zu lesen. Diese Agenten sollen von gegeben Trainingsmusikstücken lernen, um dann noch nie gehörter und gesehener Musik zu folgen. Daher müssen die Agenten in der Lage sein zu generalisieren, wodurch dieses Szenario eine passende Testumgebung zu Erforschung von Generalisierung im Bereich Reinforcement Learning ist. Die empirischen Ergebnisse dieser Arbeit sollen uns primär als Richtline für unsere zukünfte Arbeit in diesem Fachgebiet dienen. Auch wenn wir auf Grund von Hardwareeinschränkungen nur eine begrenzte Anzahl an Experimenten durchführen konnten, so können wir doch feststellen, dass sich Regularisierung in Reinforcement Learning nicht gleich verhält wie für Supervised Learning. Besonders hervorzuheben ist hier der Einfluss von BatchNormalization. Während diese Technik für einen der getesteten Algorithmen nicht funktionierte, so lieferte sie für einen anderen vielversprechende, wenn auch instabile, Resultate. Desweiteren können wir feststellen, dass ein Algorithmus robust auf Regularisierung reagiert und von dieser überhaupt nicht beinflusst wird. Unserer Meinung nach ist es notwendig, in der Zukunft weiter in diesem Bereich zu forschen und eine gründlichere und ausführlichere Studie durchzuführen.

Zusammenfassung (Englisch)

Regularization is an important concept in the context of supervised machine learning. Especially with neural networks it is necessary to restrict their capacity and expressivity in order to avoid overfitting to given train data. While there are several well-known and widely used regularization techniques for supervised machine learning such as L2-Normalization, Dropout or Batch-Normalization, their effect in the context of reinforcement learning is not yet investigated. In this thesis we give an overview of regularization in combination with policy gradient methods, a subclass of reinforcement learning algorithms relying on neural networks. We compare different state-of-the-art algorithms together with regularization methods for supervised learning to get a better understanding on how we can improve generalization in reinforcement learning. The main motivation for exploring this line of research is our current work on score following, where we try to train reinforcement learning agents to listen to and read music. These agents should learn from given musical training pieces to follow music they have never heard and seen before. Thus, the agents have to generalize which is why this scenario is a suitable test bed for investigating generalization in the context of reinforcement learning. The empirical results found in this thesis should primarily serve as a guideline for our future work in this field. Although we have a rather limited set of experiments due to hardware limitations, we see that regularization in reinforcement learning is not working in the same way as for supervised learning. Most notable is the effect of Batch-Normalization. While this technique did not work for one of the tested algorithms, it yields promising but very instable results for another. We further observe that one algorithm is robust and not affected at all by regularization. In our opinion it is necessary to further explore this field and also perform a more in depth and thorough study in the future.

Statistik
Das PDF-Dokument wurde 47 mal heruntergeladen.