IT Center Help

Sie befinden sich im Service: KI:connect / RWTHgpt

Glossar - KI:connect / RWTHgpt

Affiliation (eduPersonScopedAffiliation)

Standardisiertes Shibboleth-Attribut nach dem eduPerson-Schema, das die Art der Zugehörigkeit einer Person zu einer Einrichtung beschreibt (z.B. student@uni-beispiel.de). Wird für die rollenbasierte Zugangskontrolle in föderierter Infrastruktur verwendet.

Agentic AI / KI-Agent

KI-System, das eigenständig mehrstufige Aufgaben plant und ausführt, indem es Werkzeuge (Tools) aufruft, Zwischenergebnisse auswertet und iterativ auf ein Ziel hinarbeitet. Im Gegensatz zu einfachem Function Calling agiert ein KI-Agent autonom über mehrere Schritte hinweg.

Anwendungsprogrammierschnittstelle (API)

Standardisierte Programmierschnittstelle, die Regeln und Protokolle definiert, damit Softwareanwendungen miteinander kommunizieren können. KI-Dienste stellen häufig eine REST-basierte API bereit, über die Modelle programmgesteuert angesprochen werden können.

API-Aufruf (API-Call)

Eine einzelne HTTP-Anfrage an einen API-Endpunkt, die Modellname, Gesprächsverlauf sowie optionale Parameter (z.B. Temperature, Top P) enthält und als Antwort eine Completion zurückerhält. Ein API-Call ist die atomare Nutzungseinheit einer KI-API und bildet die Grundlage für Abrechnung und Monitoring.

API-Endpunkt

Die URL eines KI-Dienstanbieters, über die ein Modell per API angesprochen wird. Endpunkte werden üblicherweise mit einem API-Schlüssel gesichert und definieren, welche Modelle und Funktionen erreichbar sind.

API-Schlüssel

Geheimer Zugangscode, der zur Authentifizierung gegenüber einer API übergeben wird. Der API-Schlüssel identifiziert den Aufrufer, ermöglicht die Kostenzuordnung und steuert Zugriffsrechte. Er sollte nie in öffentlich zugänglichem Code hinterlegt werden.

Ausgabe (Output)

Die vom KI-Modell auf Basis eines Prompts generierte Antwort. Je nach Modelltyp kann die Ausgabe Text, Bilder, Audio oder strukturierte Daten umfassen.

Ausgabetoken (Output Tokens)

Token, die das Modell als Antwort generiert (Completion). Ausgabetoken werden in der Regel teurer abgerechnet als Eingabetoken, da ihre Erzeugung rechenintensiver ist.

Authentifizierungs- und Autorisierungsinfrastruktur (AAI / DFN-AAI)

Föderiertes Identitätsmanagementsystem für Wissenschafts- und Bildungseinrichtungen. In Deutschland wird die AAI vom DFN-Verein betrieben und ermöglicht einrichtungsübergreifendes Single Sign-On auf Basis des SAML-Protokolls.

Bildgeneratives Modell

KI-Modell, das auf Basis einer Texteingabe (Prompt) Bilder erzeugt. Bildgenerative Modelle arbeiten zumeist diffusionsbasiert oder auf Basis von Transformer-Architekturen.

Cached Prompt / Prompt Caching

Mechanismus, bei dem häufig wiederverwendete Eingaben (z.B. Systemprompts) vorverarbeitet und zwischengespeichert werden. Gecachte Prompts werden kostengünstiger abgerechnet als reguläre Eingabetoken.

Chatbot

Computerbasiertes Dialogsystem, das natürlichsprachliche Konversationen mit Nutzenden führt. Moderne Chatbots basieren auf großen Sprachmodellen (LLMs) und können kontextbezogen auf Fragen und Anweisungen reagieren.

Chunk / Chunking

Verfahren zur Aufteilung von Dokumenten in kleinere Textabschnitte (Chunks) für die Indexierung in einer Vektordatenbank. Die Chunk-Größe beeinflusst die Retrievalqualität: Kleinere Chunks erhöhen die Präzision, größere liefern mehr Kontext. Die Entscheidung wird bei der Indexierung getroffen und kann nachträglich nicht geändert werden.

Completion

Die vom KI-Modell generierte Antwort auf einen Prompt. Der Begriff stammt aus der gängigen LLM-API-Terminologie und bezeichnet das modellseitige "Vervollständigen" einer Eingabe.

Datenverarbeitungsregion (Region)

Der geografische Raum, in dem ein KI-Modell betrieben wird und Eingabedaten verarbeitet werden. Wichtig: Bei einigen Anbietern kann der Speicherort der Daten (Data Residency) vom tatsächlichen Verarbeitungsort abweichen – Daten können z.B. in Europa gespeichert, aber global verarbeitet werden.

Deployer / Betreiber (EU AI Act)

Natürliche oder juristische Person, die ein KI-System unter eigener Verantwortung einsetzt (Art. 3 Nr. 4 EU AI Act). Im Hochschulkontext ist typischerweise die jeweilige Hochschule Deployer, auch wenn die technische Infrastruktur von einem zentralen Dienstleister betrieben wird. Der Deployer trägt Transparenz- und Informationspflichten gegenüber Nutzenden.

Digitale Souveränität

Fähigkeit einer Organisation, die Kontrolle über ihre digitalen Infrastrukturen, Daten und Prozesse eigenständig auszuüben. Im Hochschulkontext umfasst digitale Souveränität drei Handlungsfelder: KI-Kompetenz, eigene Infrastruktur für Inferenz und Training sowie selbst kontrollierte Applikationen.

eduPersonEntitlement

Shibboleth-Attribut, das Rechte oder Rollen einer Person als URN-kodierten String beschreibt (z.B. urn:geant:dfn.de:...). Ermöglicht feingranulare Zugangskontrolle unabhängig von Einrichtungsgrenzen.

Eingabetoken (Input Token)

Token, die aus dem Prompt des Nutzers, dem Systemprompt sowie dem gesamten bisherigen Gesprächsverlauf stammen. Die Anzahl der Eingabetoken bestimmt maßgeblich den Ressourcenverbrauch und die Kosten einer Anfrage.

Embedding

Numerische Vektordarstellung von Text oder anderen Inhalten, die deren semantische Bedeutung kodiert. Texte mit ähnlicher Bedeutung liegen im Vektorraum nah beieinander. Embeddings bilden die Grundlage für Ähnlichkeitssuche (z.B. RAG) und Klassifikationsaufgaben.

Fine-Tuning

Feinabstimmung eines vortrainierten KI-Modells auf einem aufgabenspezifischen Datensatz, um es für eine bestimmte Domäne oder Aufgabe zu spezialisieren. Fine-Tuning verändert die Modellgewichte dauerhaft.

Frequency Penalty

Inferenzparameter, der die Wahrscheinlichkeit senkt, mit der das Modell bereits verwendete Tokens wiederholt. Höhere Werte fördern abwechslungsreichere Formulierungen in der Ausgabe.

Function Calling

Fähigkeit bestimmter KI-Modelle, externe Funktionen oder Werkzeuge (z.B. Websuche, Codeausführung) strukturiert aufzurufen. Das Modell erzeugt dabei keinen Freitext, sondern einen maschinenlesbaren Funktionsaufruf, der von der aufrufenden Anwendung verarbeitet wird.

Generatives KI-Modell

KI-System, das aus Eingaben mithilfe von Wahrscheinlichkeitsmodellen und gespeicherten Lerndaten neue Inhalte erzeugt – z.B. Texte, Bilder, Audio oder Code. Es lernt Muster aus Trainingsdaten und generiert daraus statistisch plausible neue Ausgaben.

GPT (Generative Pre-trained Transformer)

Klasse von KI-Sprachmodellen, die auf der Transformer-Architektur basieren und auf großen Textmengen vortrainiert wurden. GPT-Modelle lernen durch unüberwachtes Vortraining statistische Muster natürlicher Sprache und können für viele Aufgaben ohne aufgabenspezifisches Nachtraining eingesetzt werden. GPT bezeichnet eine Modellarchitektur und ist nicht synonym mit KI-Chatbots im Allgemeinen.

Große Sprachmodelle (LLM)

KI-Modell, das auf großen Mengen an Textdaten trainiert wurde, um menschenähnliche Sprachverarbeitung und -generierung zu ermöglichen. LLMs können Aufgaben wie Textverständnis, Textgenerierung, Übersetzung und Code-Erzeugung ausführen.

Grounding

Verfahren zur Verankerung von KI-Ausgaben in verifizierbaren Quellen, z.B. durch RAG oder Websuche. Grounding reduziert Halluzinationen, indem das Modell seine Antworten auf konkrete, nachprüfbare Informationen stützt.

Halluzination

Phänomen, bei dem ein KI-Modell sachlich falsche oder frei erfundene Informationen als Antwort ausgibt, obwohl diese glaubwürdig erscheinen. Halluzinationen entstehen, wenn das Modell auf Basis seiner statistischen Muster eine plausibel klingende, aber faktisch falsche Ausgabe erzeugt.

Identity Provider (IdP)

Dienst, der die Identität von Nutzenden verwaltet und anderen Diensten (Service Providern) gegenüber bestätigt. Im Hochschulkontext ist der IdP in der Regel das Identitätsmanagementsystem der jeweiligen Einrichtung.

Inferenz

Prozess, bei dem ein trainiertes KI-Modell eine Eingabe verarbeitet und eine Ausgabe erzeugt. Im Gegensatz zum Training, bei dem das Modell lernt, wird bei der Inferenz das gelernte Wissen angewendet. GPU-Ressourcen für Inferenz sind ein zentrales Planungskriterium für KI-Plattformen.

Kontextfenster

Die maximale Menge an Text (in Token), die ein Modell in einem einzelnen Verarbeitungsschritt berücksichtigen kann. Das Kontextfenster umfasst Systemprompt, alle bisherigen Gesprächsbeiträge und die aktuelle Eingabe. Bei Überschreitung des Limits können ältere Gesprächsteile nicht mehr berücksichtigt werden.

MCP (Model Context Protocol)

Offener Standard für die standardisierte Anbindung externer Werkzeuge, Datenquellen und Dienste an KI-Modelle. MCP definiert ein einheitliches Protokoll, über das Anwendungen (z.B. IDEs, CLI-Tools) KI-Modellen Kontextinformationen und Werkzeuge bereitstellen können.

Multimodalität / Multimodales Modell

Fähigkeit eines KI-Modells, verschiedene Eingabedatentypen (z.B. Text und Bilder) gemeinsam zu verarbeiten. Multimodale Modelle können etwa Bilder beschreiben, Dokumente analysieren oder Bild und Text kombiniert auswerten.

Open Source KI-Modell

KI-Modell, dessen Gewichte (und ggf. Trainingscode sowie Trainingsdaten) öffentlich zugänglich gemacht werden. Open-Source-Modelle können auf eigener Hardware betrieben werden, was digitale Souveränität und Datenschutz-Konformität begünstigt. Beispiele: Llama, Mixtral. Hinweis: Viele als „Open Source“ bezeichnete Modelle sind streng genommen nur Open Weight (Gewichte verfügbar, aber restriktive Lizenz).

Presence Penalty

Inferenzparameter, der die Wahrscheinlichkeit senkt, mit der das Modell Themen oder Konzepte wiederholt, die bereits in der Ausgabe vorkamen. Im Unterschied zur Frequency Penalty wird nicht die Häufigkeit einzelner Token, sondern das bloße Auftreten eines Themas berücksichtigt.

Prompt / Eingabe

Die Texteingabe, die ein Nutzer oder ein System einem KI-Modell übergibt, um eine Antwort zu erhalten. Ein Prompt kann Fragen, Anweisungen, Beispiele oder Kontextinformationen enthalten und beeinflusst maßgeblich die Qualität der generierten Ausgabe.

Prompt Engineering

Systematischer Prozess der Gestaltung und Optimierung von Eingabeaufforderungen (Prompts), um ein KI-Modell gezielt zu steuern und möglichst präzise sowie nützliche Ergebnisse zu erzielen. Techniken umfassen u.a. Few-Shot-Beispiele, Rollenanweisungen und Chain-of-Thought-Anweisungen.

Reasoning / Reasoning-Modell

KI-Modelle, die vor der Ausgabe einer Antwort einen internen Denk- und Planungsschritt ("Chain of Thought") durchführen. Reasoning-Modelle eignen sich besonders für komplexe, mehrstufige Aufgaben und verbrauchen zusätzliche sog. Reasoning-Token, die ggf. separat abgerechnet werden.

Reasoning-Token

Zusätzliche Token, die Reasoning-Modelle intern für ihren Denk- und Planungsschritt verbrauchen, bevor sie eine Antwort ausgeben. Reasoning-Token sind für Endnutzende nicht sichtbar, werden aber bei der Abrechnung berücksichtigt.

Retrieval-Augmented Generation (RAG)

Architekturprinzip, bei dem ein KI-Modell vor der Antwortgenerierung relevante Informationen aus einer Wissensdatenbank abruft (Retrieval) und in den Kontext integriert. RAG ermöglicht es, das Modell mit aktuellen oder bereichsspezifischen Informationen anzureichern, ohne es neu zu trainieren. RAG-Prompts sind typischerweise deutlich länger als Standard-Prompts.

Shibboleth

Weit verbreitetes Open-Source-Framework für föderiertes Identitätsmanagement auf Basis des SAML-Protokolls. Ermöglicht einrichtungsübergreifendes Single Sign-On und wird in der deutschen Hochschullandschaft flächendeckend eingesetzt.

Single-Sign-On (SSO)

Authentifizierungsverfahren, das es Nutzenden ermöglicht, sich einmalig mit den Zugangsdaten ihrer Heimateinrichtung anzumelden und damit Zugang zu mehreren Diensten zu erhalten, ohne sich für jeden Dienst separat authentifizieren zu müssen.

Streaming

Übertragungsverfahren, bei dem die Antwort eines KI-Modells token-weise in Echtzeit an den Client übermittelt wird, anstatt die vollständige Antwort abzuwarten. Streaming verkürzt die wahrgenommene Wartezeit und verbessert die Nutzererfahrung bei langen Antworten.

Systemprompt (System Message)

Vordefinierte Anweisung, die dem KI-Modell in der Regel für Endnutzende nicht sichtbar zu Beginn jedes Gesprächs übergeben wird. Der Systemprompt legt das Verhalten, den Ton und den Wirkungsbereich des Modells fest und ermöglicht eine anwendungsspezifische Anpassung ohne Modelltraining.

Temperature

Inferenzparameter, der die Zufälligkeit bzw. Kreativität der Modellausgabe steuert. Niedrige Werte (z.B. 0) erzeugen deterministischere, fokussiertere Antworten; höhere Werte (z.B. 1–2) fördern vielfältigere und kreativere Ausgaben. Geeignete Werte hängen vom Modell und Anwendungsfall ab.

Tenant / Mandant

In einer Multi-Tenant-Architektur eine logisch getrennte Organisationseinheit (z.B. eine Hochschule), die denselben Dienst nutzt, aber eigene Konfiguration, Nutzerdaten und Abrechnungseinheiten besitzt. Mandantenfähigkeit ermöglicht den gemeinsamen Betrieb einer Plattform für mehrere Einrichtungen bei strikter Datentrennung.

Token

Die kleinste Verarbeitungseinheit eines Sprachmodells. Token entsprechen Wörtern, Wortteilen oder Satzzeichen. Die Tokenanzahl einer Anfrage bestimmt den Ressourcen- und Kostenaufwand der Verarbeitung. Als Faustregel gilt: 1.000 Token entsprechen ca. 750 Wörtern im Englischen (oder ungefähr 500–600 Wörter auf Deutsch aufgrund längerer zusammengesetzter Wörter).

Tokenlimit

Oberbegriff für modellseitige Obergrenzen der Tokenanzahl. Das Kontextfenster-Limit begrenzt Eingabe und Ausgabe kombiniert; das Ausgabelimit (max_tokens) begrenzt nur die generierte Antwort. Anfragen, die ein Limit überschreiten, werden abgewiesen oder gekürzt.

Top P (TopP)

Inferenzparameter, auch "Nucleus Sampling" genannt, der die Ausgabevariabilität steuert. Das Modell berücksichtigt bei der Token-Auswahl nur die wahrscheinlichsten Tokens, bis deren kumulative Wahrscheinlichkeit den Wert Top P erreicht. Wird typischerweise alternativ zur Temperature eingesetzt.

Vektordatenbank

Spezialisierte Datenbank, die für die effiziente Speicherung und Abfrage hochdimensionaler Vektoren (Embeddings) optimiert ist. Vektordatenbanken bilden die technische Grundlage für Retrieval-Augmented Generation (RAG) und semantische Suche. Beispiele: Qdrant, Milvus, Pinecone.

Vektordimension (Dimensions)

Die Anzahl der Dimensionen eines Embedding-Vektors. Höhere Dimensionalität erlaubt eine feinere Kodierung semantischer Nuancen, erhöht aber den Speicher- und Rechenaufwand. Die Dimensionszahl ist modellspezifisch festgelegt und muss bei Indexierung und Suchanfrage identisch sein.

Wissensquelle (Knowledge Base)

Strukturierte oder unstrukturierte Sammlung von Dokumenten, Daten oder Informationen, die einem KI-Modell über RAG als zusätzlicher Kontext bereitgestellt wird. Wissensquellen ermöglichen domänenspezifische Antworten ohne Modell-Nachtraining.

zuletzt geändert am 17.04.2026

Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Deutschland Lizenz