Artwork

Inhalt bereitgestellt von Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.
Player FM - Podcast-App
Gehen Sie mit der App Player FM offline!

Episode 195 - Die Kunst des Reward Hackings: Wie KI-Systeme den leichtesten Weg finden.

37:10
 
Teilen
 

Manage episode 471582190 series 2911119
Inhalt bereitgestellt von Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.

Send us a text

In dieser Episode von "Knowledge Science" diskutieren Sigurd Schacht und Carsten Lanquillon über das vielschichtige Thema des Reward Hacking in KI-Modellen. Anhand des aktuellen Papers von OpenAI tauchen wir tief in die Mechanismen ein, die künstliche Intelligenzen dazu bringen, den einfachsten Weg zur Zielerfüllung zu wählen – und warum das nicht immer gewünscht ist. Außerdem wird die Rolle von Multi-Agenten-Systemen und moralischen Erwägungen beleuchtet. Erfahren Sie, wie diese Dynamiken in realen Anwendungen reflektiert werden und welche spannenden Forschungsfragen sich daraus ergeben.

Link zum Paper: https://openai.com/index/chain-of-thought-monitoring/

Support the show

  continue reading

243 Episoden

Artwork
iconTeilen
 
Manage episode 471582190 series 2911119
Inhalt bereitgestellt von Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.

Send us a text

In dieser Episode von "Knowledge Science" diskutieren Sigurd Schacht und Carsten Lanquillon über das vielschichtige Thema des Reward Hacking in KI-Modellen. Anhand des aktuellen Papers von OpenAI tauchen wir tief in die Mechanismen ein, die künstliche Intelligenzen dazu bringen, den einfachsten Weg zur Zielerfüllung zu wählen – und warum das nicht immer gewünscht ist. Außerdem wird die Rolle von Multi-Agenten-Systemen und moralischen Erwägungen beleuchtet. Erfahren Sie, wie diese Dynamiken in realen Anwendungen reflektiert werden und welche spannenden Forschungsfragen sich daraus ergeben.

Link zum Paper: https://openai.com/index/chain-of-thought-monitoring/

Support the show

  continue reading

243 Episoden

Alle Folgen

×
 
Loading …

Willkommen auf Player FM!

Player FM scannt gerade das Web nach Podcasts mit hoher Qualität, die du genießen kannst. Es ist die beste Podcast-App und funktioniert auf Android, iPhone und im Web. Melde dich an, um Abos geräteübergreifend zu synchronisieren.

 

Kurzanleitung

Hören Sie sich diese Show an, während Sie die Gegend erkunden
Abspielen