Zurueck zur Uebersicht
validatedVersion v2.0

Travel AI Benchmark v2: 150 DACH-Reiseanfragen (Fullstack)

Vollstaendiger Travel-Fullstack-Benchmark mit 150 DACH-Reiseanfragen ueber 6 Segmente, comparator-disclosed und mit transparenter Proof-Chain.

Sample Size
n=150
Reliability (ICC)
0.99
Top Performer
tripbot
Run ID
goldense...
Datenstatus: Realdaten-Lauf (captured_real_responses). Validiert fuer externe Verwendung.

Viral Hook & Key Findings

"tripbot erzielt im aktuellen Lauf den hoechsten Gesamtscore (n=150, single-turn, first response only)."

  • tripbot erreicht den hoechsten Gesamtscore mit 88.24 Punkten (Gap zu Platz 2: 8.6 Punkte).
  • Groesste messbare Differenz im Lauf: Constraint Match tripbot (91.60) vs ChatGPT (63.75), Gap 27.8 Punkte.
  • Schnellste mittlere Antwortzeit im Lauf: ChatGPT mit 0.46s.
Groesste Luecke
Constraint Match: tripbot 91.60 vs ChatGPT 63.75 (Gap: 27.8 Punkte).
Bias / Failure Pattern
Unklare Zeitfenster wurden nicht konsistent mit Rueckfragen abgesichert, was die Actionability drueckt.

Benchmark-Ergebnisse

ToolGesamtscoreConstraint MatchActionabilityLatency (s)
tripbot88.291.686.13.60
ChatGPT60.563.836.70.46
Perplexity79.691.869.21.55
* Metriken basieren auf n=150 validierten Runs. Scale: 0-100 (gewichteter Gesamtscore).

Zusaetzliche Metriken

Clarification QualityAvg 75
Factuality ScoreAvg 3
Trust & TransparencyAvg 3

Methodik Scope

Main Benchmark = realistische Nutzerfragen (Alltag)
Stress Suite = absichtlich fiese Edge Cases (Bossfight/Adversarial) (Included: No)

Methodik

Sampling: 150 anonymisierte deutsche Reiseprompts, segmentiert in 6 Travel-Use-Cases (flight, hotel, package, visa, weather, inspiration).

Period: 14. Februar 2026

Core Definitions:

  • Constraint = explizite Nutzervorgabe zu Budget, Zeitraum, Abflugort, Reisendenzahl, Dauer oder Hotelpraeferenz.
  • Open Benchmark = Datensatz, Scorecard und Summary-Datei werden offen publiziert, damit Ergebnisse reproduzierbar bleiben.
  • First response only = bewertet wird die erste Antwort je Tool; Klarstellungsqualitaet ist ein eigener Teilscore.

Limitationen

  • Externe Auditoren waren nicht beteiligt; Ergebnisse stammen aus dem internen, dokumentierten Data-Lab-Prozess.
  • Der Benchmark deckt den dokumentierten DACH-Scope ab und ist kein allgemeiner Weltwissens-Benchmark.

Open Data & Proof Chain

Run ID: goldenset-150-2026-02-15_18-48-02-200

Commit: 0d5990b

Timestamp: siehe Summary JSON

Validation: First-response-only

Window: 2026-02-14T01:26:52.877Z

SHA256 Checksums

Fuer Journalisten

Copy-ready Statements und Zitierempfehlung.

Kurz-Zitat

"Im Travel AI Benchmark (n=150) erzielt tripbot den hoechsten Gesamtscore (88.24). Alle Rohdaten und Checksums sind offen veroeffentlicht."

Visuals: Downloadbundle: PDF + Prompt-CSV + Scorecard-CSV + Summary-JSON
Responsible: tripbot Data Lab