sharing is caring
ist wirklich so!
Vielen Dank fürs Teilen!
Kluge Köpfe filtern für dich relevante Beiträge aus dem Netz.
Entdecke handverlesene Artikel, Videos und Audios zu deinen Themen.
Kurator'in für: Volk und Wirtschaft Medien und Gesellschaft Technologie und Gesellschaft Fundstücke
Leitet das Digital-Team im Wirtschaftsressort der Süddeutschen Zeitung, was nicht heißt, dass er nur Nerd-Kram piqt. Studierte in Erlangen und Portland Politikwissenschaft und Amerikanistik, schrieb in Nürnberg, Berlin, New York und München. Interessiert an allem Politischen. Am Absurden sowieso. Süchtig nach Longreads.
Es ist ein Überbietungswettbewerb: Im Rhythmus weniger Wochen veröffentlichen KI-Unternehmen wie OpenAI, Meta, Google, Anthropic und andere neue Versionen ihrer KI-Modelle. Noch größer, noch mehr weights, und noch mehr Fähigkeiten in Mathematik, Logik und Sprache – behaupten zumindest die Unternehmen hinter den Modellen. Immer wieder geben sie an, dass ihre KIs die der Konkurrenz in "Benchmark"-Vergleichen schlagen, die meist aus Multiple-Choice-Wissenstests und kleinen Logikaufgaben und moralischen Fragen bestehen. Zuletzt war es Meta, dessen neuestes Llama-Modell mit Chat-GPT Turbo von OpenAI und Claude Sonnet 3.5 von Anthropic gleichgezogen sein soll.
The Markup, ein auf Algorithmen-Recherchen spezialisiertes US-Portal, hat sich diese Performance-Vergleiche genauer angesehen, die in Tech-Zirkeln seit dem Boom der LLMs immer wieder die Runde machen und von Fanboys und Griftern oft marktschreierisch verkündet werden. Fazit der Recherche:
many benchmarks were designed to test systems far simpler than those in use today. Some are years old, increasing the chance that models have already ingested these tests when being trained. Many were created by scraping amateur user-generated content like Wikihow, Reddit, and trivia websites rather than collaborating with experts in specialized fields. Others used Mechanical Turk gig workers to write questions to test for morals and ethics
Dennoch etablierten sich die Tests, und sei dies einmal geschehen, werde es schwierig, diese Messstandards wieder zurückzunehmen oder zu korrigieren. Das könnte ein Problem sein, denn die Benchmarks könnten Endkonsumenten und Investoren in die KI-Firmen blenden.
Die Ergebnisse seien wenig aussagekräftig, schreibt auch Benj Edwards bei Ars Technica über Llama und den Vergleich des neuen Meta-Modells mit der Konkurrenz:
this traditional slate of AI benchmarks is so generally useless to laypeople that even Meta's PR department just posted a few images of numerical charts without attempting explain their significance in any detail.
Die Autoren der Markup-Recherche kommen zu dem Schluss, dass die Benchmarks dringend standardisiert werden müssen – und zwar ohne die kommerziellen Interessen bestimmter Unternehmen ins Zentrum zu stellen. Zudem sollten Menschen die Testergebnisse bewerten, um der Automatisierung nicht zu viel Raum zu geben. Denn Maschinen, die einander immer weiter in den Himmel loben, brauchen wir vermutlich nicht.
Quelle: Jon Keegan Bild: Gabriel Hongsdusit EN themarkup.org
Einfach die Hörempfehlungen unserer Kurator'innen als Feed in deinem Podcatcher abonnieren. Fertig ist das Ohrenglück!
Öffne deinen Podcast Feed in AntennaPod:
Wenn alles geklappt hat,
kannst du das Fenster schließen.
Öffne deinen Podcast Feed in Apple Podcasts:
Wenn alles geklappt hat,
kannst du das Fenster schließen.
Öffne deinen Podcast Feed in Downcast:
Wenn alles geklappt hat,
kannst du das Fenster schließen.
Öffne deinen Podcast Feed in Instacast:
Wenn alles geklappt hat,
kannst du das Fenster schließen.
Öffne deinen Podcast Feed in Apple Podcasts:
Wenn alles geklappt hat,
kannst du das Fenster schließen.
Öffne deinen Podcast Feed in Podgrasp:
Wenn alles geklappt hat,
kannst du das Fenster schließen.
Bitte kopiere die URL und füge sie in deine
Podcast- oder RSS-APP ein.
Wenn du fertig bist,
kannst du das Fenster schließen.
Öffne deinen Podcast Feed in gpodder.net:
Wenn alles geklappt hat,
kannst du das Fenster schließen.
Öffne deinen Podcast Feed in Pocket Casts:
Wenn alles geklappt hat,
kannst du das Fenster schließen.