Vor einigen Tagen veröffentlichte Alex Reisner im Atlantic einen Artikel, der mit »Die Gedächtniskrise der KI« betitelt ist. Im Untertitel heißt es: »Große Sprachmodelle ›lernen‹ nicht – sie kopieren. Und das könnte für die Tech-Branche alles verändern«.

Ausgangspunkt der Reisnerschen Gedanken ist der prominent verwendete Begriff des (maschinellen) Lernens, der jedoch irreführend sei, da die großen Sprachmodelle wie ChatGPT, Claude, Gemini und Grok ganze Bücher oder lange Passagen aus ihren Trainingsdaten fast wortgetreu wiedergeben könnten. Es handele sich hier also vielmehr um ein stumpfes Auswendiglernen, genauer: um das Abspeichern von Daten (memorization) als um einen Lernprozeß. Daher sei eine begriffliche Präzisierung unbedingt vonnöten, die auch eine Anthropomorphisierung unterbinde. Reiser schreibt:

Tatsächlich verwenden viele KI-Entwickler einen technisch genaueren Begriff, wenn sie über diese Modelle sprechen: verlustbehaftete Komprimierung [»lossy compression«]. Auch außerhalb der Branche gewinnt dieser Begriff zunehmend an Bedeutung. Kürzlich wurde er von einem deutschen Gericht verwendet, das in einem von der Musikverwertungsgesellschaft GEMA angestrengten Verfahren gegen OpenAI entschied. Die GEMA wies nach, daß ChatGPT Songtexte nahezu originalgetreu nachbilden kann. Der Richter verglich das Modell mit MP3- und JPEG-Dateien, die Musik und Photos in Dateien speichern, die kleiner sind als die unkomprimierten Originale. Wenn man beispielsweise ein Photo in hoher Qualität als JPEG speichert, ist das Ergebnis ein Photo von etwas geringerer Qualität, in einigen Fällen mit Unschärfen oder visuellen Artefakten. Ein verlustbehafteter Komprimierungsalgorithmus speichert das Photo zwar weiterhin, aber es handelt sich eher um eine Annäherung als um die exakte Datei. Man spricht von verlustbehafteter Komprimierung, weil ein Teil der Daten verloren geht. Aus technischer Sicht ähnelt dieser Komprimierungsprozeß stark dem, was in KI-Modellen geschieht, wie mir Forscher mehrerer KI-Unternehmen und Universitäten in den letzten Monaten erklärt haben. Sie nehmen Text und Bilder auf und geben Text und Bilder aus, die diesen Eingaben nahekommen.

Ich denke, diese semantische Spielerei wird hauptsächlich rechtliche Konsequenzen für die KI-Unternehmen haben. Für die Nutzer der KI-Chatbots hingegen dürfte sich wohl nichts ändern. So überzeugend und nachvollziehbar die Analogie mit verdichteten Musik- und Bilddateien auch sein mag: Fakt ist, daß MP3 und JPEG nahezu ubiquitär Verwendung finden; die Rohdaten sind einfach zu groß, zu anstrengend, zu unbequem, daher abschreckend, unnötig und belastend. Warum den Ulysses lesen (das Original, das Rohe), wenn doch die Zusammenfassung (die verlustbehaftete Komprimierung, das Zubereitete) durch ein KI-Modell ausreicht?