Gehen Sie mit der App Player FM offline!
Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude
Manage episode 426909075 series 2911119
In dieser faszinierenden Episode erkunden Sigurd Schacht und Carsten Lanquillon, wie Anthropic's Forschung zur Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf Konzeptebene zu manipulieren. Sie diskutieren das aufsehenerregende Golden Gate Claude-Experiment, bei dem ein Sprachmodell dazu gebracht wurde, in jeder Konversation die Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden Implikationen dieser Technologie für die Zukunft der KI-Steuerung und -Sicherheit.
207 Episoden
Manage episode 426909075 series 2911119
In dieser faszinierenden Episode erkunden Sigurd Schacht und Carsten Lanquillon, wie Anthropic's Forschung zur Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf Konzeptebene zu manipulieren. Sie diskutieren das aufsehenerregende Golden Gate Claude-Experiment, bei dem ein Sprachmodell dazu gebracht wurde, in jeder Konversation die Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden Implikationen dieser Technologie für die Zukunft der KI-Steuerung und -Sicherheit.
207 Episoden
すべてのエピソード
×Willkommen auf Player FM!
Player FM scannt gerade das Web nach Podcasts mit hoher Qualität, die du genießen kannst. Es ist die beste Podcast-App und funktioniert auf Android, iPhone und im Web. Melde dich an, um Abos geräteübergreifend zu synchronisieren.