validatedVersion v2.0

Travel AI Benchmark v2: 150 DACH-Reiseanfragen (Fullstack)

Name: Travel AI Benchmark v2: 150 DACH-Reiseanfragen (Fullstack)
Creator: tripbot Data Lab
Published: 2026-02-14

Vollstaendiger Travel-Fullstack-Benchmark mit 150 DACH-Reiseanfragen ueber 6 Segmente, comparator-disclosed und mit transparenter Proof-Chain.

Sample Size

n=150

Reliability (ICC)

0.99

Top Performer

tripbot

Run ID

goldense...

Datenstatus: Realdaten-Lauf (captured_real_responses). Validiert fuer externe Verwendung.

Viral Hook & Key Findings

"tripbot erzielt im aktuellen Lauf den hoechsten Gesamtscore (n=150, single-turn, first response only)."

tripbot erreicht den hoechsten Gesamtscore mit 88.24 Punkten (Gap zu Platz 2: 8.6 Punkte).
Groesste messbare Differenz im Lauf: Constraint Match tripbot (91.60) vs ChatGPT (63.75), Gap 27.8 Punkte.
Schnellste mittlere Antwortzeit im Lauf: ChatGPT mit 0.46s.

Groesste Luecke

Constraint Match: tripbot 91.60 vs ChatGPT 63.75 (Gap: 27.8 Punkte).

Bias / Failure Pattern

Unklare Zeitfenster wurden nicht konsistent mit Rueckfragen abgesichert, was die Actionability drueckt.

Benchmark-Ergebnisse

Run-ID: goldenset-150-2026-02-15_18-48-02-200

Tool	Gesamtscore	Constraint Match	Actionability	Latency (s)
tripbot	88.2	91.6	86.1	3.60
ChatGPT	60.5	63.8	36.7	0.46
Perplexity	79.6	91.8	69.2	1.55

* Metriken basieren auf n=150 validierten Runs. Scale: 0-100 (gewichteter Gesamtscore).

Zusaetzliche Metriken

Clarification QualityAvg 75

Factuality ScoreAvg 3

Trust & TransparencyAvg 3

Methodik Scope

Main Benchmark = realistische Nutzerfragen (Alltag)

Stress Suite = absichtlich fiese Edge Cases (Bossfight/Adversarial) (Included: No)

Methodik

Sampling: 150 anonymisierte deutsche Reiseprompts, segmentiert in 6 Travel-Use-Cases (flight, hotel, package, visa, weather, inspiration).

Period: 14. Februar 2026

Core Definitions:

Constraint = explizite Nutzervorgabe zu Budget, Zeitraum, Abflugort, Reisendenzahl, Dauer oder Hotelpraeferenz.
Open Benchmark = Datensatz, Scorecard und Summary-Datei werden offen publiziert, damit Ergebnisse reproduzierbar bleiben.
First response only = bewertet wird die erste Antwort je Tool; Klarstellungsqualitaet ist ein eigener Teilscore.

Limitationen

Externe Auditoren waren nicht beteiligt; Ergebnisse stammen aus dem internen, dokumentierten Data-Lab-Prozess.
Der Benchmark deckt den dokumentierten DACH-Scope ab und ist kein allgemeiner Weltwissens-Benchmark.

Open Data & Proof Chain

Run ID: goldenset-150-2026-02-15_18-48-02-200

Commit: 0d5990b

Timestamp: siehe Summary JSON

Validation: First-response-only

Window: 2026-02-14T01:26:52.877Z

SHA256 Checksums

Downloads

Prompt-Datensatz (CSV)Scorecard (CSV)Stress Suite Prompts (CSV)Stress Suite Scorecard (CSV)Methodik & Ergebnisse (PDF)Summary & Checksums (JSON)Blind Rating Pack (CSV)

Fuer Journalisten

Copy-ready Statements und Zitierempfehlung.

Kurz-Zitat

"Im Travel AI Benchmark (n=150) erzielt tripbot den hoechsten Gesamtscore (88.24). Alle Rohdaten und Checksums sind offen veroeffentlicht."

Visuals: Downloadbundle: PDF + Prompt-CSV + Scorecard-CSV + Summary-JSON

Responsible: tripbot Data Lab