Forscher von Top-US-Universitäten warnen davor, dass eine Verlängerung des Vor-Trainings die Leistung beeinträchtigen kann. Zu viel Vor-Training kann zu einer schlechteren Leistung führen, aufgrund von etwas Ähnlichem wie dem Schmetterlingseffekt. Je mehr sie vor-trainiert sind, desto sensibler werden sie für kleine Änderungen, die das Endergebnis stören könnten.
Forscher von Carnegie Mellon, Stanford, Harvard und Princeton stellen eine der akzeptierten Kernüberzeugungen der KI-Entwicklung in Frage – dass je mehr Vor-Trainingsdaten vorhanden sind, desto besser die Leistung.
Wie von HPCwire berichtet, diskutiert ein neues Papier das Konzept des „katastrophalen Übertrainings“, bei dem ein verlängertes Vor-Training die Leistung eines Modells nach dem Feinabstimmung schaden kann.
Die Forscher verglichen zwei Versionen des OLMo-1B-Modells, eines trainiert mit 2,3 Billionen Token und eines mit 3 Billionen. Trotz des größeren Trainingssatzes soll das umfassendere trainierte Modell angeblich bis zu 3% schlechter auf Benchmarks wie AlpacaEval und ARC abgeschnitten haben.
Dieser Leistungsabfall, so die Studie, steht im Zusammenhang mit einem Phänomen namens „progressive Sensibilität“.
Wenn die Anzahl der Tokens zunimmt, wird das Modell zerbrechlicher. Selbst kleine Anpassungen, wie Änderungen während der Feinabstimmung oder die Einführung von Rauschen, können frühere Gewinne umkehren.
Die Autoren haben dies gezeigt, indem sie Gaußsches Rauschen in vor-trainierte Modelle eingespritzt haben und festgestellt, dass die Leistung umso stärker sank, je länger das Modell trainiert wurde.
Der Punkt, an dem dieses zusätzliche Training anfängt, die Leistung zu beeinträchtigen, wird als „Inflektionspunkt“ bezeichnet.
Einmal erreicht, werden die Vorteile des Trainings zunehmend vom Risiko interner Instabilität überwogen. Die Studie ergab, dass dieser Kippunkt bei kleineren Modellen wie OLMo-1B oft jenseits von 2,5 Billionen Token liegt.
„Katastrophales Übertraining ist möglicherweise unvermeidlich… besonders wenn die Vor-Trainings- und Feinabstimmungsaufgaben nicht übereinstimmen“, warnen die Autoren in ihrem Papier, das Sie über den arXiv-Preprint-Server abrufen können.
Während die Forscher kein Ende des Vor-Trainings vorschlagen, sind sie der Ansicht, dass Entwickler darüber nachdenken sollten, wie viel Vor-Training ausreicht. Wie das Papier abschließt, „Unsere Ergebnisse erfordern einen erneuten Fokus auf die Modellskalierung, der den gesamten Trainingsprozess berücksichtigt.“
Für KI-Entwickler, die nach Skalierung streben, scheint die Botschaft klar zu sein: Manchmal ist weniger wirklich mehr.