handverlesenswert

Kluge Köpfe filtern für dich relevante Beiträge aus dem Netz.
Entdecke handverlesene Artikel, Videos und Audios zu deinen Themen.

Du befindest dich im Kanal:

Technologie und Gesellschaft

KI-Leistungstests – größtenteils Willkür

Redakteur

Kurator'in für: Volk und Wirtschaft Medien und Gesellschaft Technologie und Gesellschaft Fundstücke

Leitet das Digital-Team im Wirtschaftsressort der Süddeutschen Zeitung, was nicht heißt, dass er nur Nerd-Kram piqt. Studierte in Erlangen und Portland Politikwissenschaft und Amerikanistik, schrieb in Nürnberg, Berlin, New York und München. Interessiert an allem Politischen. Am Absurden sowieso. Süchtig nach Longreads.

Zum Kurator'innen-Profil

Jannis Brühl

2 0

Mittwoch, 31.07.2024

Folgen

Es ist ein Überbietungswettbewerb: Im Rhythmus weniger Wochen veröffentlichen KI-Unternehmen wie OpenAI, Meta, Google, Anthropic und andere neue Versionen ihrer KI-Modelle. Noch größer, noch mehr weights, und noch mehr Fähigkeiten in Mathematik, Logik und Sprache – behaupten zumindest die Unternehmen hinter den Modellen. Immer wieder geben sie an, dass ihre KIs die der Konkurrenz in "Benchmark"-Vergleichen schlagen, die meist aus Multiple-Choice-Wissenstests und kleinen Logikaufgaben und moralischen Fragen bestehen. Zuletzt war es Meta, dessen neuestes Llama-Modell mit Chat-GPT Turbo von OpenAI und Claude Sonnet 3.5 von Anthropic gleichgezogen sein soll.

The Markup, ein auf Algorithmen-Recherchen spezialisiertes US-Portal, hat sich diese Performance-Vergleiche genauer angesehen, die in Tech-Zirkeln seit dem Boom der LLMs immer wieder die Runde machen und von Fanboys und Griftern oft marktschreierisch verkündet werden. Fazit der Recherche:

many benchmarks were designed to test systems far simpler than those in use today. Some are years old, increasing the chance that models have already ingested these tests when being trained. Many were created by scraping amateur user-generated content like Wikihow, Reddit, and trivia websites rather than collaborating with experts in specialized fields. Others used Mechanical Turk gig workers to write questions to test for morals and ethics

Dennoch etablierten sich die Tests, und sei dies einmal geschehen, werde es schwierig, diese Messstandards wieder zurückzunehmen oder zu korrigieren. Das könnte ein Problem sein, denn die Benchmarks könnten Endkonsumenten und Investoren in die KI-Firmen blenden.

Die Ergebnisse seien wenig aussagekräftig, schreibt auch Benj Edwards bei Ars Technica über Llama und den Vergleich des neuen Meta-Modells mit der Konkurrenz:

this traditional slate of AI benchmarks is so generally useless to laypeople that even Meta's PR department just posted a few images of numerical charts without attempting explain their significance in any detail.

Die Autoren der Markup-Recherche kommen zu dem Schluss, dass die Benchmarks dringend standardisiert werden müssen – und zwar ohne die kommerziellen Interessen bestimmter Unternehmen ins Zentrum zu stellen. Zudem sollten Menschen die Testergebnisse bewerten, um der Automatisierung nicht zu viel Raum zu geben. Denn Maschinen, die einander immer weiter in den Himmel loben, brauchen wir vermutlich nicht.

KI-Leistungstests – größtenteils Willkür

Quelle: Jon Keegan Bild: Gabriel Hongsdusit EN themarkup.org

17.07.2024

Everyone Is Judging AI by These Tests. But Experts Say They're Close to Meaningless - The Markup

Benchmarks used to rank AI models are several years old, often sourced from amateur websites, and, experts worry, lending automated systems a dubious sense of authority