Gehen Sie mit der App Player FM offline!
Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?
Manage episode 416428792 series 2911119
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
204 Episoden
Manage episode 416428792 series 2911119
In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824
204 Episoden
Alle Folgen
×Willkommen auf Player FM!
Player FM scannt gerade das Web nach Podcasts mit hoher Qualität, die du genießen kannst. Es ist die beste Podcast-App und funktioniert auf Android, iPhone und im Web. Melde dich an, um Abos geräteübergreifend zu synchronisieren.