30. Mai 2023

Wo kommen denn die Daten für ChatGPT & Co her?

Die KI-Modelle "erinnern" sich nicht an spezifische Daten oder Quellen, sondern nutzen Muster in den Daten, um Antworten auf Fragen zu generieren und Texte zu verfassen.

Wenn es um das Internet geht, spricht die ganze Welt seit einigen Monaten nur noch über ein großes Thema. Künstliche Intelligenz als Sprachmodell für die barrierefreie Wiedergabe von logischen Informationen. Doch woher kommen eigentlich die ganzen Informationen, die uns das Leben leichter machen sollen? Milliarden von Daten wandern ja täglich um den Erdball, werden weiterverarbeitet, abgerufen, verwendet.

Auf den ersten Blick ist es ganz einfach: Zahlreiche Unternehmen, viele, viele Menschen und Organisationen haben diese Daten gesammelt und ins Netz gestellt – aus welchen Gründen auch immer ... Das wollen wir uns mal ein wenig näher anschauen.

Durch KI wird der Mensch noch mehr Daten verarbeiten

Massive Kommunikation als Basis

Die meisten Infos kommen von Menschen. Sie schreiben Blogs, posten Artikel oder veröffentlichen selbst gedrehte Videos. Dazu kommen Wissenschaftler und Forscher, die ihre Forschungsergebnisse veröffentlichen.

Auch die Kommunikation von Unternehmen trägt zum Anschwellen des Datenberges bei. Viele Unternehmen haben umfangreiche Daten gesammelt, Hintergrundinformationen mit Zahlen veröffentlicht oder schlicht Unternehmens-News geteilt. Etwa Medienunternehmen, die Nachrichten und Artikel veröffentlichen, oder Technologieunternehmen, die Daten zu ihren Produkten und Dienstleistungen publizieren.

Klar, dass auch Regierungen, Vereine und Organisationen ihren Anteil an der Datenflut haben. Statistische Daten, Umfragen, Untersuchungen, wissenschaftliche Berichte, Gesetzesdokumente und vieles mehr.

Auch Wissenschaft und Forschung sind Informationstreiber

Natürlich spielen auch akademische Einrichtungen und Non-Profit Organisationen eine Rolle. Universitäten und Forschungsinstitutionen haben riesige Mengen an wissenschaftlichen Artikeln, Forschungsergebnissen und dazugehörigen Daten veröffentlicht.

Und: Viele Non-Profit-Organisationen, wie Wikimedia Foundation (die Organisation hinter Wikipedia), haben dazu beigetragen, das Internet mit frei zugänglichem Wissen zu füllen.

Die Relevanz von Künstlicher Intelligenz (KI) wie ChatGPT kann in unserem digitalen Zeitalter gar nicht hoch genug eingeschätzt werden. Verwaltungsvorgänge werden effektiver, weil deutlich viel schneller, Datenverarbeitung und Setup von sich wiederholenden Skripten eine Sache von Sekunden. Aber auch die mögliche Unterstützung von gesetzesbasierenden Auswertungen können einen wahren Effektivitätsschub erwarten.

Effektivere Informationsverarbeitung und Automatisierung

KI-Modelle können enorme Mengen an Informationen verarbeiten und daraus nützliche Erkenntnisse oder Schlussfolgerungen ziehen. In einer Welt, in der immer mehr Daten erzeugt werden, können KI-Systeme dabei helfen, diese Daten einzuordnen, zu verstehen und schließlich auch zu nutzen.
KI kann viele Prozesse automatisieren, die früher manuell durchgeführt werden mussten. Das Ergebnis Effizienzsteigerungen in vielen Branchen, von der Fertigung bis zum Kundendienst.

Grenzenlose Sprachverarbeitung

KI-Modelle wie ChatGPT sind besonders wichtig für die Verarbeitung natürlicher Sprache. Sie können Texte verfassen, Fragen beantworten, Übersetzungen durchführen und vieles mehr. Das kann in einer Vielzahl von Anwendungen nützlich sein, von der Verbesserung der Barrierefreiheit bis zur Bereitstellung eines Online-Kundensupports.

Erweiterte Möglichkeiten für Forschung und Innovation

KI kann Dinge tun, die für Menschen schwierig oder unmöglich wären. Zum Beispiel können diese künstlichen Intelligenzen Muster in Daten erkennen, die für Menschen zu komplex wären, oder sie können in Echtzeit auf eine Vielzahl von Anfragen reagieren. KI ist ein Schlüsselwerkzeug für die Forschung in vielen Bereichen, von der Medizin bis zur Astrophysik. KI-Modelle können dabei helfen, komplexe Probleme zu lösen und ermöglichen so Innovation.

Außerdem kann die Entwicklung der Künstlichen Intelligenz, oder auch maschinelles Lernen genannt, Bildung und Lernen einen Boost verleihen. KI- Modelle können als Lernressourcen dienen. Sie können auf Anfragen reagieren und erklärende Texte verfassen, was sie zu wertvollen Werkzeugen für das individuelle Lernen und die Bildung macht. Und zwar gut, dass die ersten Abiturienten inzwischen auf den Spickzettel verzichten und stattdessen auf ChatGPT auf ihren Smartphones setzen (so geschehen bei Abiturprüfungen 2023).

Überprüfung und Qualitätssicherung künstlicher Modelle

Die Überprüfung der Inhalte, die ChatGPT generiert, erfolgt auf mehreren Ebenen.

Ein Teil der Überprüfung findet schon während des Trainingsprozesses statt, also bevor die Anwendung auf die Menschheit losgelassen wird. Während des Trainings wird das Modell auf seine Fähigkeit hin überprüft, Texte zu generieren, die kohärent, grammatikalisch korrekt und inhaltlich stimmig sind. Das geschieht durch einen Prozess namens "Feintuning", bei dem das Modell anhand einer kleineren, sorgfältig kuratierten Datenmenge weiter trainiert wird.

Darüber hinaus legen die Unternehmen strenge Richtlinien und Normen für die Art der Inhalte, die ChatGPT generieren darf, fest. Dazu gehört, dass das Modell keine illegalen, schädlichen oder anstößige Inhalte generieren soll. OpenAI, der Konzern hinter ChatGPT, hat Systeme und Mechanismen zur Überwachung und Durchsetzung dieser Richtlinien entwickelt, einschließlich der Möglichkeit für Benutzer, problematische Ausgaben zu melden.

Allerdings: Die Idee der künstlichen Intelligenz (KI), insbesondere fortschrittlicher Sprachmodelle wie eben ChatGPT, löst bei einigen Menschen Sorgen oder Ängste aus. Etwa die Angst vor Arbeitsplatzverlust durch Automatisierung, die Befürchtung von Missbrauch der KI für unethische Zwecke oder Sorgen über Datenschutz und Privatsphäre.

Es gibt jedoch einige gute Gründe, die für die KI sprechen:

1. Transparentes Design

OpenAI zum Beispiel hat den Entwicklungs- und Trainingsprozess für das Modell transparent und öffentlich gemacht. Das ermöglicht der breiten Öffentlichkeit und Fachleuten, die Methoden und Praktiken von OpenAI zu verstehen und zu bewerten.

2. Fokus auf Ethik und Sicherheit

Es gibt klare ethische Richtlinien und Sicherheitsprotokolle, die sicherstellen, dass KI-Modelle nicht missbraucht werden. Das beinhaltet auch das Engagement, keine sensiblen persönlichen Informationen zu speichern, die von Benutzern bereitgestellt werden.

3. Menschliche Aufsicht ist unabdingbar

Obwohl ChatGPT in der Lage ist, Text autonom zu generieren, wird es immer noch unter menschlicher Aufsicht betrieben und genutzt. Es wird als Hilfsmittel und nicht als Ersatz für menschliche Interaktion oder Entscheidungsfindung angesehen.

4. Die Maschine bleibt vom Menschen abhängig

ChatGPT und ähnliche KI-Modelle können keine physischen Handlungen in der realen Welt ausführen. Sie können nur Text generieren und haben keinen Einfluss auf externe Systeme oder Prozesse.

5. Kein Bewusstsein oder Absicht

Ein Sprachmodell der KI, egal von welchem Hersteller, verfügt über kein Bewusstsein. Ihm fehlt es auch an Intentionen – heißt: Eine KI kann seine Handlungen nicht bewusst planen. Es versteht nicht, was es sagt, und hat keine eigenen Gedanken oder Gefühle. Es generiert Text auf der (logischen) Grundlage von Mustern, die es während des Trainings gelernt hat. Und: Es besitzt keine Fähigkeit zur Selbstreflexion oder moralischen Urteilsfindung.

Roboter und Mann beim Bewerbungsgespräch

Die Kontrolle und Durchsetzung der Standards von verantwortungsvollem Einsatz künstlicher Intelligenz ist in Zukunft Prio 1.

Die KI-Modelle "erinnern" sich nicht an spezifische Daten oder Quellen, sondern nutzen Muster in den Daten, um Antworten auf Fragen zu generieren und Texte zu verfassen. Aus diesem Grund müssen die Systeme zwar weiter mit Daten “gefüttert” werden, die Muster aber sollten transparent bleiben.