Zur Eignung von generativer Text-KI

Eine OpenAI-Studie zeigt, dass selbst fortschrittliche KI-Modelle wie GPT-4o häufiger falsche als richtige Antworten auf einfache Faktenfragen geben.

Grundlage des Tests bildet der SimpleQA-Test. Bei diesem Test werden 4.326 Fragen aus verschiedenen Bereichen wie z. B. Wissenschaft, Politik und Kunst verwendet. Jede Frage wurde so konzipiert, dass es nur eine eindeutig richtige Antwort gibt.

Beim SimpleQA-Test erreichte das beste Modell (OpenAI o1) nur eine Genauigkeit von 42,7 %. Zudem überschätzen die Modelle oft ihr eigenes Wissen. Die Studie betont, dass KI als Wissenswerkzeug mit Vorsicht zu nutzen ist, da sie bei Faktenfragen oft versagt.

Mehr dazu hier.

Schreibe einen Kommentar