İstanbul
Ankara
İzmir
Adana
Adıyaman
Afyonkarahisar
Ağrı
Aksaray
Amasya
Antalya
Ardahan
Artvin
Aydın
Balıkesir
Bartın
Batman
Bayburt
Bilecik
Bingöl
Bitlis
Bolu
Burdur
Bursa
Çanakkale
Çankırı
Çorum
Denizli
Diyarbakır
Düzce
Edirne
Elazığ
Erzincan
Erzurum
Eskişehir
Gaziantep
Giresun
Gümüşhane
Hakkâri
Hatay
Iğdır
Isparta
Kahramanmaraş
Karabük
Karaman
Kars
Kastamonu
Kayseri
Kırıkkale
Kırklareli
Kırşehir
Kilis
Kocaeli
Konya
Kütahya
Malatya
Manisa
Mardin
Mersin
Muğla
Muş
Nevşehir
Niğde
Ordu
Osmaniye
Rize
Sakarya
Samsun
Siirt
Sinop
Sivas
Şırnak
Tekirdağ
Tokat
Trabzon
Tunceli
Şanlıurfa
Uşak
Van
Yalova
Yozgat
Zonguldak
featured
  1. Haberler
  2. Haberler
  3. Dünya
  4. Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir

Haberi Dinle

Oxford ekibi, dünyanın önde gelen araştırma kurumlarından 30’dan fazla bilim insanıyla birlikte yürüttüğü çalışmada, YZ modellerinin performansını değerlendirmede yaygın olarak kullanılan 445 test ve ölçüm yöntemini (benchmark) inceledi.

Testlerin çoğu ne ölçtüğünü tanımlamıyor

Araştırmaya göre, birçok üst düzey test ne ölçmek istediğini açıkça tanımlamıyor, önceki testlerden veri ve yöntemleri kopyalıyor ve modeller arası karşılaştırmalarda güvenilir istatistiksel yöntemler kullanmıyor.

Çalışmanın başyazarlarından Oxford İnternet Enstitüsü kıdemli araştırmacısı Adam Mahdi, bu testlerin yanıltıcı olabileceğini vurguladı:

“Yapay zekaya belli görevler verdiğimizde, aslında ölçmek istediğimiz kavramdan tamamen farklı şeyleri ölçüyor olabiliriz” dedi.

Bir diğer yazar Andrew Bean de, “Bir modelin ‘doktora düzeyinde zekaya ulaştığı’ iddialarını duyduğunuzda bunu temkinle karşılamak gerekir. Çünkü bu ölçümler her zaman sağlıklı yapılmıyor” ifadelerini kullandı.

‘Matematikte iyi’ görünen model aslında ezber yapıyor olabilir

Araştırmada örnek olarak GSM8K adlı test ele alındı. Bu test, yapay zekaların temel matematik problemlerini çözme kabiliyetini ölçüyor ve genellikle “modelin matematiksel akıl yürütme becerisi yüksek” şeklinde yorumlanıyor.

Ancak Mahdi’ye göre doğru cevabı vermek, gerçek anlamda matematiksel muhakeme yapıldığı anlamına gelmiyor:

“Bir çocuğa iki artı beş kaç eder diye sorduğunuzda yedi cevabını vermesi doğru olabilir, ama bu onun aritmetik muhakemeyi kavradığı anlamına gelmez.”

Bilim insanlarından daha güvenilir test çağrısı

Araştırma, testlerin “yapı geçerliliği” (construct validity) sorununa dikkat çekiyor; yani testlerin gerçekten ölçmek istedikleri olguyu ölçüp ölçmedikleri belirsiz.

Yazarlar, yeni çalışmada testlerin daha güvenilir hale getirilmesi için sekiz öneri ve bir kontrol listesi sundu.

Bu öneriler arasında;

Ölçülen eylemin kapsamının açıkça tanımlanması,

Gerçek becerileri temsil edecek görev setleri hazırlanması,

Sonuçların istatistiksel yöntemlerle karşılaştırılması gibi adımlar yer alıyor.

METR AI araştırma merkezinden Nikola Jurkovic, çalışmayı “YZ testlerinin yorumlanabilirliği için önemli bir başlangıç noktası” olarak değerlendirdi.

Gerçek dünyaya dayalı yeni testler yolda

Son dönemde bazı araştırma grupları, YZ modellerinin ekonomik ve pratik görevlerdeki performansını ölçmek için yeni test dizileri geliştirmeye başladı.

Eylül sonunda OpenAI, yapay zekanın 44 farklı meslek için gerekli görevlerdeki başarısını ölçen bir test serisi yayımladı. Bu testler, örneğin sanal bir satış analisti için Excel faturalarındaki tutarsızlıkları düzeltme veya sanal bir video yapımcısı için 60 saniyelik bir çekim planı hazırlama gibi görevleri kapsıyor.

Benzer şekilde AI Safety Center direktörü Dan Hendrycks ve ekibi, uzaktan çalışmada gerekli becerileri test eden yeni bir ölçüm seti geliştirdi. Hendrycks, “YZ sistemleri bazen testlerde yüksek puan alıyor ama testin asıl amacını gerçekte yerine getiremiyor,” dedi.

‘Bilimsel ölçüm yolculuğunun başındayız’

Mahdi, mevcut testlerin yeniden değerlendirilmesi gerektiğini belirterek, “Yapay zeka sistemlerinin bilimsel olarak değerlendirilmesinde henüz yolun başındayız” ifadelerini kullandı.

Araştırma, mevcut yapay zeka değerlendirmelerinde “ölçüm güvenilirliği” konusunun göz ardı edilmesinin, sistemlerin gerçek yeteneklerini abartılı biçimde göstermesine yol açtığını ortaya koyuyor.



deebi.net | Hayatın içinde…

Yapay zekanın yetenekleri hatalı testler nedeniyle abartılıyor olabilir
Yorum Yap
Giriş Yap

deebi.net ayrıcalıklarından yararlanmak için hemen giriş yapın veya hesap oluşturun, üstelik tamamen ücretsiz!

Uygulamayı Yükle

Uygulamamızı yükleyerek içeriklerimize daha hızlı ve kolay erişim sağlayabilirsiniz.