„Wir wollen einen Chatbot.“ Diesen Satz hören wir jede Woche im Scoping. Und in neun von zehn Fällen muss man tiefer graben: Hinter dem Wort Chatbot verbirgt sich manchmal ein echter Chatbot — ein Q/A-System auf Basis von Wissen —, oft aber ein KI-Agent, also ein System, das Entscheidungen treffen und Aktionen in externen Werkzeugen ausführen kann.
Der Unterschied ist nicht kosmetisch. Er bestimmt die Kosten (Faktor 1 bis 5), die Implementierungskomplexität, das Risikoprofil und die Roll-out-Strategie. Dieser Artikel schlägt eine klare Methode vor, um zu entscheiden, basierend auf dem, was wir in unseren DevHighWay-Projekten 2025-2026 beobachten.
Chatbot vs. Agent: eine klare technische Grenze
Ein moderner Chatbot ist ein Q/A-System, das sich auf RAG (Retrieval-Augmented Generation) stützt. Die Nutzerin stellt eine Frage, das System findet die relevanten Passagen in einer Vektorbasis (Qdrant, Pinecone, pgvector), übergibt sie zusammen mit der Frage an das LLM und liefert eine synthetische Antwort. Geschlossener Scope, geringe Fehlerkritikalität, ausgereifte Architektur.
Ein KI-Agent funktioniert anders. Er erhält ein Ziel, plant eine Aktionssequenz, ruft Werkzeuge (APIs, Datenbanken, Geschäftsfunktionen) auf, bewertet die Zwischenergebnisse und iteriert, bis das Ziel erreicht ist — oder er sauber scheitert. Typische Muster: ReAct, Plan-and-Execute, Multi-Agent. Der Scope ist offen, der Entscheidungsbaum kombinatorisch, das operative Risiko real.
Schritt 1 — Die gewünschten Interaktionen auflisten
Der entscheidende Test hält in einer Frage: Verlässt die Nutzerin die Interaktion mit einer Information oder mit einer ausgeführten Aktion? „Was sind Ihre Lieferzeiten?“ ist eine Informationsfrage. „Verschieben Sie meine Lieferung auf Samstag“ ist eine Aktionsanfrage. Wenn 90 % der Interaktionen in die erste Gruppe fallen, haben Sie einen Chatbot-Fall.
Viele Projekte mischen beides. In diesem Fall ist der richtige Ansatz nicht systematisch ein einziger Agent, der beides erledigt: Es ist oft ein RAG-Chatbot, der Aktionsanfragen erkennt und an einen dedizierten Workflow eskaliert — einfacher zu bauen, vorhersagbarer im Betrieb.
Schritt 2 — Externe Zustandsmanipulationen identifizieren
Wenn die Interaktion einen Zustand in einem Drittsystem ändert (ein Zendesk-Ticket erstellen, einen Salesforce-Deal aktualisieren, eine Stripe-Zahlung auslösen, einen n8n-Workflow starten), befinden Sie sich im Agentengebiet. Tool Use — die Fähigkeit des LLM, externe Funktionen aufzurufen — wird zentral. Architektur, Observability und Risikoprofil ändern sich radikal.
- Nur lesen: einen Bestellstatus anzeigen, eine Rechnung finden — als Chatbot mit RAG und Read-APIs handhabbar
- Einfaches Schreiben: ein Ticket erstellen, eine Notiz hinzufügen — leichter Agent vom Typ OpenAI Assistants API
- Komplexes mehrstufiges Schreiben: 4-5 Aufrufe mit Abhängigkeiten und Rollback verketten — LangGraph oder AutoGen
- Kritische Aktion: Überweisung, Löschung, Vertrag — Agent zwingend mit menschlicher Validierung in den ersten Monaten
Schritt 3 — Die Fehlerkritikalität bewerten
Die Kosten eines Fehlers bestimmen den Investitionsumfang in Leitplanken. Ein Kundendienst-Chatbot, der schlecht antwortet, kostet Nutzerfrust und einen menschlichen Anruf. Ein Buchhaltungsagent, der sich irrt, kostet eine fehlerhafte Buchung, manchmal schwer prüfbar. Bei gleichem Volumen sind die Auswirkungen nicht vergleichbar.
Unsere Praxisregel: Unter 50 € durchschnittlichem Schaden pro Fehler ist ein gut konzipierter autonomer Agent verteidigbar. Zwischen 50 und 500 € erzwingen wir mindestens für die ersten 90 Tage einen menschlich assistierten Modus. Über 500 € permanente menschliche Validierung oder eingeschränkter Scope. Diese Schwellen schützen sowohl das Projekt als auch die Endnutzer.
Schritt 4 — Das passende Framework wählen
Der Framework-Markt hat sich 2025-2026 um einige Akteure stabilisiert. Für einen RAG-Chatbot: LangChain oder LlamaIndex zur Orchestrierung, Qdrant oder Pinecone als Vector Store, Cohere Rerank für die Relevanz, RAGAS für die Evaluation. LLM nach Wahl: GPT-4 Turbo, Claude 3.7 Sonnet, Mistral Large 2 für die Souveränität.
Für einen Agenten hängt die Wahl von der Workflow-Komplexität ab. OpenAI Assistants API, um auf einem einfachen Fall schnell zu starten. LangGraph für zustandsbasierte Workflows mit Verzweigungen und Wiederaufnahmen. AutoGen für Multi-Agent mit Spezialisierung nach Rolle. Anthropic Tool Use für die Robustheit eines monolithischen Agenten in der Produktion. vLLM, um ein selbst gehostetes Modell zu servieren, wenn die Souveränität es erfordert.
- Chatbot 5-15 k€ Implementierung: RAG + Cloud-LLM, Deployment 4-8 Wochen, OPEX 100-500 €/Monat
- Einfacher Agent 20-35 k€: 2-5 Tools, OpenAI Assistants API oder leichtes LangGraph, Deployment 8-12 Wochen
- Komplexer Agent 35-60 k€: mehrstufiger Workflow, vollständige Observability, ggf. Multi-Agent — 12-20 Wochen
- Token-Verbrauch: ein Agent verbraucht 2 bis 5 Mal mehr Tokens als ein vergleichbarer Chatbot — Schlüsselfaktor des OPEX
Schritt 5 — Observability ab T0 konzipieren
Observability ist kein Nice-to-have, sondern eine Voraussetzung. Für einen Chatbot decken LangSmith oder OpenAI Evals das Wesentliche ab: Prompt-Traces, automatisierte Qualitäts-Scores, CSAT nach dem Gespräch, Alerting bei Abweichungen. Für einen Agenten kommt ein strukturiertes Audit-Log jedes Tool Calls (Input, Output, Dauer, Status) und ein Session-Replay zum Debugging hinzu.
Ohne Observability wird ein produktiver Agent nach wenigen Wochen zur unsteuerbaren Black Box. Vorfälle häufen sich ohne Diagnosemöglichkeit, Nutzer verlieren das Vertrauen, das Projekt stirbt. Rechnen Sie mit 10 bis 15 % des Implementierungsbudgets für Observability — eine defensive Investition, keine Nebenausgabe.
Schritt 6 — Progressiver Roll-out-Plan
Kein KI-Agent darf direkt von der Demo in den autonomen Modus gehen. Der Roll-out erfolgt in drei klar getrennten Phasen. Zuerst still: Der Agent läuft parallel zu Menschen, seine Entscheidungen werden protokolliert, aber nicht ausgeführt, man vergleicht. Dann assistiert: Der Agent schlägt eine Aktion vor, ein Mensch validiert per Klick. Schließlich autonom: Der Agent handelt allein, mit automatischer Eskalation in Fällen geringer Konfidenz.
Diese Progression über 8 bis 16 Wochen kostet Kalender, vermeidet aber produktive Vorfälle, die das interne Vertrauen zerstören. In unseren Agentenprojekten ist es die stille Phase — oft vernachlässigt —, die die strukturellsten Denkfehler offenbart. Besser sie offline zu erkennen als in der Kundenrechnung.
Welches reale Budget über 24 Monate?
Jenseits der initialen Implementierung übersteigen die Betriebskosten eines KI-Agenten oft die eines Chatbots um den Faktor 3 bis 5 auf 24 Monate. Drei Posten erklären das. Zuerst der Tokenverbrauch: Ein mehrstufiger Agent kann 5 000 bis 20 000 Tokens pro Session verbrauchen gegenüber 1 500 bis 4 000 bei einem vergleichbaren RAG-Chatbot — der Unterschied summiert sich rasch auf Tausende Euro pro Monat bei ernsthaften Volumen.
Observability und Sicherheit bilden den zweiten Posten. Ein produktiver Agent benötigt ein strukturiertes Audit-Log, Session-Replay, Alerts pro Schritt, automatisierte Bewertungen der Reasoning-Qualität — das Äquivalent einer leichten MLOps-Plattform. Rechnen Sie mit 8 bis 15 k€ zusätzlich in Jahr 1 und 200 bis 600 €/Monat wiederkehrend im Tooling (LangSmith, Langfuse, Datadog). Der dritte Posten ist der Mensch in der Schleife, besonders in den assistierten Phasen: Eine Operatorin, die 100 Entscheidungen pro Tag à 30 Sekunden validiert, sind 0,5 zusätzliche VZÄ, die einzuplanen sind.
- RAG-Chatbot 24 Monate — 15-30 k€ Impl. + 3-12 k€/Jahr OPEX = ~21-54 k€ insgesamt
- Einfacher Agent 24 Monate — 25-45 k€ Impl. + 12-36 k€/Jahr OPEX = ~49-117 k€ insgesamt
- Komplexer Agent mit HITL 24 Monate — 40-70 k€ Impl. + 40-100 k€/Jahr OPEX = ~120-270 k€ insgesamt
Die Fallen, die Konversationsprojekte zum Scheitern bringen
Über die klassischen technischen Fehler hinaus kehren zwei Scope-Fallen systematisch wieder und entkräften ganze Projekte.
- Einen Agenten für einen Chatbot-Fall einsetzen: Mehrkosten ×3 bis ×5, gesteigerte Betriebskomplexität, ungerechtfertigtes operatives Risiko — obwohl ein gut gebauter RAG 95 % des Bedarfs gedeckt hätte
- Einen Chatbot für einen Aktionsfall einsetzen: Die Nutzerin sagt „verschieben Sie meine Lieferung“, der Bot antwortet „hier ist unsere Lieferpolitik“ — Frustration garantiert, Churn ebenfalls
- Die stille Phase überspringen: direkt in den autonomen Modus eines Agenten mittlerer oder hoher Kritikalität zu gehen, erzeugt 3 bis 5 öffentliche Vorfälle, die das Projekt politisch killen
Wie geht es weiter?
Die Wahl Chatbot vs. KI-Agent ist eine Entscheidung über 30 000-100 000 € auf 24 Monate — sie verdient eine echte Scoping-Phase, keine 30-minütige Sitzung. Unsere Methode hält in sechs Schritten, aber der erste — Information vs. Aktion sauber zu qualifizieren — spart die meisten späteren Fehler.
- Mit einem kostenlosen Audit einschließlich Scoping der Konversations-Anwendungsfälle beginnen
- Unsere Begleitpakete für Chatbot oder Agent ansehen — ab 199 €/Monat
- Kontakt aufnehmen für 30 Minuten kostenloses Scoping und eine argumentierte Empfehlung Chatbot vs. Agent
Zwischen Chatbot und Agent zu wählen heißt, zwischen operativer Einfachheit und Ausführungsstärke zu wählen. Beide haben ihre Berechtigung — man muss sie nur am richtigen Ort, im richtigen Fall, zur richtigen Zeit einsetzen.