Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://help.pantaos.com/llms.txt

Use this file to discover all available pages before exploring further.

KI ist Betriebskostenkostenlast. Token Management hält diese Kostenkosten vorhersagbar, zurechenbar und im Verhältnis zum Wert, den KI liefert.

Was Sie bekommen

Echtzeit-Nutzungs-Tracking

Live-Dashboards mit Token-Verbrauch nach Person, Team, Assistent und Workflow.

Budgets auf jeder Ebene

Caps pro Workspace, Team, Person und Assistent — unabhängig setzbar und stapelbar.

Smarte Alerts

Benachrichtigungen bei 50 %, 80 %, 100 % Budget. Slack, E-Mail oder In-App.

Zurechenbarkeit by Default

Jedes Token ist einer Person, einem Assistenten und einem Projekt zugeordnet. Keine Mysterien.

Wie Budgets funktionieren

Workspace-Budget setzen

Workspace-Cap ist die Decke. Nichts geht ohne explizite Anhebung darüber.

An Teams verteilen

Jedes Team bekommt einen Anteil. Teams besitzen ihren Anteil und können weiter unterteilen.

Pro-Assistent-Leitplanken

Teure Assistenten (tiefe Modelle, langer Kontext) bekommen eigene Caps, damit sie kein Team-Budget aufbrauchen.

Übersteuern bei Bedarf

Kurzzeitige Anhebung für Kampagne oder Quartal — befristet mit Enddatum.

Was Sie in Analysen sehen

Verbrauch pro Team

Welche Abteilung KI am stärksten nutzt. Oft überraschend — und nützlich.

Verbrauch pro Assistent

Die teuren Assistenten. Die zuerst zu optimieren sind.

Verbrauch pro Person

Power-User — meist Ihre Champions. Adoptionssignale.

Verbrauch über Zeit

Trends und Anomalien, Woche für Woche.
Token Management dient der organisationalen Steuerung. Einzelne Nutzer:innen sehen nicht den Verbrauch anderer; sie sehen ihren eigenen und je nach Rolle den ihres Teams.

Tipps, die echtes Geld sparen

Die meisten Chats brauchen nicht das größte Modell. Default auf eine schnelle, fähige Mittelklasse — Top-Modelle für Assistenten reservieren, die sie wirklich brauchen.
Lange System-Prompts werden bei jeder Runde abgerechnet. Straffen.
Bei wiederkehrenden Fragen auf stabilem Wissen — cachen. PANTA OS cachet wo möglich transparent.
Niemals ausgeführte Assistenten kosten Storage und Indexing. Veraltetes archivieren.