Artwork

Inhalt bereitgestellt von Stephen Auger. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Stephen Auger oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.
Player FM - Podcast-App
Gehen Sie mit der App Player FM offline!

AI Caught 'Cheating' Its Medical Exams - New Research Paper from Microsoft

5:09
 
Teilen
 

Manage episode 510734489 series 3678442
Inhalt bereitgestellt von Stephen Auger. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Stephen Auger oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.

Top AI models are acing medical benchmarks, but are they actually ready for the clinic? A groundbreaking study reveals that impressive scores can hide a dangerous lack of real-world robustness. In this episode, we break down the ingenious "stress tests" that expose how AI can succeed on an exam for all the wrong reasons—from guessing answers without seeing medical images to failing when the question format is slightly changed. Tune in to understand why we must move beyond leaderboard scores and start demanding real proof of clinical readiness.

"The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks". Gu et al. 22 Sept 2025.

Link to the paper: https://arxiv.org/html/2509.18234v1

#Microsoft #OpenAI #Gemini #HealthAI #AIinHealthcare #DigitalHealth #MedicalAI #ClinicalAI #PatientSafety #Tech #Innovation #MachineLearning #LLM #ai in medicine Music generated by Mubert https://mubert.com/render

[email protected]

  continue reading

33 Episoden

Artwork
iconTeilen
 
Manage episode 510734489 series 3678442
Inhalt bereitgestellt von Stephen Auger. Alle Podcast-Inhalte, einschließlich Episoden, Grafiken und Podcast-Beschreibungen, werden direkt von Stephen Auger oder seinem Podcast-Plattformpartner hochgeladen und bereitgestellt. Wenn Sie glauben, dass jemand Ihr urheberrechtlich geschütztes Werk ohne Ihre Erlaubnis nutzt, können Sie dem hier beschriebenen Verfahren folgen https://de.player.fm/legal.

Top AI models are acing medical benchmarks, but are they actually ready for the clinic? A groundbreaking study reveals that impressive scores can hide a dangerous lack of real-world robustness. In this episode, we break down the ingenious "stress tests" that expose how AI can succeed on an exam for all the wrong reasons—from guessing answers without seeing medical images to failing when the question format is slightly changed. Tune in to understand why we must move beyond leaderboard scores and start demanding real proof of clinical readiness.

"The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks". Gu et al. 22 Sept 2025.

Link to the paper: https://arxiv.org/html/2509.18234v1

#Microsoft #OpenAI #Gemini #HealthAI #AIinHealthcare #DigitalHealth #MedicalAI #ClinicalAI #PatientSafety #Tech #Innovation #MachineLearning #LLM #ai in medicine Music generated by Mubert https://mubert.com/render

[email protected]

  continue reading

33 Episoden

Alle Folgen

×
 
Loading …

Willkommen auf Player FM!

Player FM scannt gerade das Web nach Podcasts mit hoher Qualität, die du genießen kannst. Es ist die beste Podcast-App und funktioniert auf Android, iPhone und im Web. Melde dich an, um Abos geräteübergreifend zu synchronisieren.

 

Kurzanleitung

Hören Sie sich diese Show an, während Sie die Gegend erkunden
Abspielen