KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update – ein heise-Podcast

Inhalt bereitgestellt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Isabel Grünewald, heise online, Isabel Grünewald, and Heise online oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.

2y ago 38:17

MP3•Episode-Home

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen - und wie aussagegkräftig die Ergebnisse solcher Benchmarks sind.

heise.de/ki-update https://www.heise.de/ct https://heise.de/-9288453 https://www.heise.de/thema/Kuenstliche-Intelligenz https://the-decoder.de/ https://www.heiseplus.de/podcast

534 Episoden

#Technologie #Gesellschaft #Nachrichten #Tech News #Isabel Grünewald, heise online #Isabel Grünewald #Künstliche Intelligenz #Heise Online #LL.M #Generative KI #Decode #Genai #KIUpdate