Artwork

Inhalt bereitgestellt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.
Player FM - Podcast-App
Gehen Sie mit der App Player FM offline!

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

38:17
 
Teilen
 

Manage episode 378306232 series 3482920
Inhalt bereitgestellt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.
KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen - und wie aussagegkräftig die Ergebnisse solcher Benchmarks sind.

heise.de/ki-update https://www.heise.de/ct https://heise.de/-9288453 https://www.heise.de/thema/Kuenstliche-Intelligenz https://the-decoder.de/ https://www.heiseplus.de/podcast

  continue reading

534 Episoden

Artwork
iconTeilen
 
Manage episode 378306232 series 3482920
Inhalt bereitgestellt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.
KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen - und wie aussagegkräftig die Ergebnisse solcher Benchmarks sind.

heise.de/ki-update https://www.heise.de/ct https://heise.de/-9288453 https://www.heise.de/thema/Kuenstliche-Intelligenz https://the-decoder.de/ https://www.heiseplus.de/podcast

  continue reading

534 Episoden

Alle Folgen

×
 
Loading …

Willkommen auf Player FM!

Player FM scannt gerade das Web nach Podcasts mit hoher Qualität, die du genießen kannst. Es ist die beste Podcast-App und funktioniert auf Android, iPhone und im Web. Melde dich an, um Abos geräteübergreifend zu synchronisieren.

 

Kurzanleitung

Hören Sie sich diese Show an, während Sie die Gegend erkunden
Abspielen