Zurueck zur Uebersicht
validatedVersion v2.0
Travel AI Benchmark v2: 150 DACH-Reiseanfragen (Fullstack)
Vollstaendiger Travel-Fullstack-Benchmark mit 150 DACH-Reiseanfragen ueber 6 Segmente, comparator-disclosed und mit transparenter Proof-Chain.
Sample Size
n=150
Reliability (ICC)
0.99
Top Performer
tripbot
Run ID
goldense...
Datenstatus: Realdaten-Lauf (captured_real_responses). Validiert fuer externe Verwendung.
Viral Hook & Key Findings
"tripbot erzielt im aktuellen Lauf den hoechsten Gesamtscore (n=150, single-turn, first response only)."
- tripbot erreicht den hoechsten Gesamtscore mit 88.24 Punkten (Gap zu Platz 2: 8.6 Punkte).
- Groesste messbare Differenz im Lauf: Constraint Match tripbot (91.60) vs ChatGPT (63.75), Gap 27.8 Punkte.
- Schnellste mittlere Antwortzeit im Lauf: ChatGPT mit 0.46s.
Groesste Luecke
Constraint Match: tripbot 91.60 vs ChatGPT 63.75 (Gap: 27.8 Punkte).
Bias / Failure Pattern
Unklare Zeitfenster wurden nicht konsistent mit Rueckfragen abgesichert, was die Actionability drueckt.
Benchmark-Ergebnisse
| Tool | Gesamtscore | Constraint Match | Actionability | Latency (s) |
|---|---|---|---|---|
| tripbot | 88.2 | 91.6 | 86.1 | 3.60 |
| ChatGPT | 60.5 | 63.8 | 36.7 | 0.46 |
| Perplexity | 79.6 | 91.8 | 69.2 | 1.55 |
* Metriken basieren auf n=150 validierten Runs. Scale: 0-100 (gewichteter Gesamtscore).
Zusaetzliche Metriken
Clarification QualityAvg 75
Factuality ScoreAvg 3
Trust & TransparencyAvg 3
Methodik Scope
Main Benchmark = realistische Nutzerfragen (Alltag)
Stress Suite = absichtlich fiese Edge Cases (Bossfight/Adversarial) (Included: No)
Methodik
Sampling: 150 anonymisierte deutsche Reiseprompts, segmentiert in 6 Travel-Use-Cases (flight, hotel, package, visa, weather, inspiration).
Period: 14. Februar 2026
Core Definitions:
- Constraint = explizite Nutzervorgabe zu Budget, Zeitraum, Abflugort, Reisendenzahl, Dauer oder Hotelpraeferenz.
- Open Benchmark = Datensatz, Scorecard und Summary-Datei werden offen publiziert, damit Ergebnisse reproduzierbar bleiben.
- First response only = bewertet wird die erste Antwort je Tool; Klarstellungsqualitaet ist ein eigener Teilscore.
Limitationen
- Externe Auditoren waren nicht beteiligt; Ergebnisse stammen aus dem internen, dokumentierten Data-Lab-Prozess.
- Der Benchmark deckt den dokumentierten DACH-Scope ab und ist kein allgemeiner Weltwissens-Benchmark.
Open Data & Proof Chain
Run ID: goldenset-150-2026-02-15_18-48-02-200
Commit: 0d5990b
Timestamp: siehe Summary JSON
Downloads
Fuer Journalisten
Copy-ready Statements und Zitierempfehlung.
Kurz-Zitat
"Im Travel AI Benchmark (n=150) erzielt tripbot den hoechsten Gesamtscore (88.24). Alle Rohdaten und Checksums sind offen veroeffentlicht."
Visuals: Downloadbundle: PDF + Prompt-CSV + Scorecard-CSV + Summary-JSON
Responsible: tripbot Data Lab
