Ortaya Çıktı: Büyük AI modelleri bu kadar opaktır

hadicanim

Aktif Üye
Stanford, MIT ve Princeton üniversitelerinden yapay zeka araştırmacılarından oluşan bir ekip, temel modeller, yani büyük yapay zeka modelleri için bir şeffaflık endeksi oluşturdu. GPT-4, Stabil Difüzyon 2 ve PaLM 2 gibi iyi bilinen on modeli 100 faktöre göre değerlendirir. Yüzde 100 puanla tam şeffaflığa ulaşılacak.

Reklamcılık



Sonuç çok etkileyici: Ön sıralarda yer alanlar yüzde 50’nin biraz üzerinde bir puan elde ediyor; kırmızı fener ise yalnızca yüzde 12’lik bir puanla Amazon’un Titan Text’i.

Oluşturma aşamasından dağıtım aşamasına kadar şeffaflık


Ekibe göre Temel Model Şeffaflık Endeksi’nin (FMTI) arkasındaki motivasyon, büyük yapay zeka modellerinin giderek daha fazla şeffaflıktan yoksun kalmasıdır. Bu nedenle şirketler, Temel Modellerini uygulamalarına kolayca entegre edip edemeyeceklerini değerlendirmede zorluk yaşayabilirler. Hem araştırma hem de son kullanıcılar, yapay zeka kullanımında şeffaflığa ilişkin bilgilere de ihtiyaç duyuyor.

FMTI ekibi on popüler modeli inceleyip değerlendirdi. En üstte yüzde 54 puanla Meta’nın Geniş Dil Modeli (LLM) LLaMA 2 yer alıyor. Hemen arkasından yüzde 53 ile Hugging Face’ten BLOOMZ gelirken, OpenAI’den GPT-4 yüzde 48 ile üçüncü sırada yer alıyor.







Ekip, bir puan belirlemek amacıyla şeffaflık açısından farklı alanlardaki on temel modelini inceledi.


(Resim: Stanford Üniversitesi)



Üç model seviyesinden 100 gösterge


Değerlendirme için ekip, yukarı akış, model ve alt akış alanlarına bölünmüş 100 göstergeyi bir araya getirdi. Yukarı yöndeki faktörler, temel modellerin eğitimi için veri kaynakları, coğrafi dağıtım ve bilgi işlem kaynakları dahil olmak üzere model oluşturma sürecini tanımlar. Model göstergeleri, diğer şeylerin yanı sıra modelin mimarisini, yeteneklerini ve sınırlamalarını içerir. Son olarak, alt faktörler arasında sürüm ve güncelleme süreci, lisans ve modelin kullanıcılar ve pazarlar üzerindeki etkisi yer almaktadır.







Ekip, üç ana alanı veriler, yöntemler ve riskler dahil olmak üzere on üç alt alana ayırdı.


(Resim: Stanford Üniversitesi)



Ekip, puanları oluşturduktan sonra modellerden sorumlu olanlara yorum yapma fırsatı verdi ve meşru itirazlar varsa değerleri ayarladı. İnceleme, yüzde 50’nin biraz üzerinde kazanan ve yüzde 37’lik ortalama puanla şeffaflığa ilişkin olumlu bir tablo çizmiyor.

Çarpıcı ve şaşırtıcı olmayan şey ise üç açık model olan LLaMA 2, BLOOMZ ve Stable Diffusion 2’nin ilk dört sırada yer almasıdır. OpenAI modelinin üçüncü sırada yer alması biraz sürpriz oldu çünkü şirket, ismine rağmen modellerinin ayrıntılarına gelince düşük bir profil tutuyor.







Açık modeller, modeli eğitirken (çubukların yeşil kısmı) özellikle yukarı akış faktörlerinde puan alabilir.


(Resim: Stanford Üniversitesi)



Büyük ölçüde öğrenciler, yüksek lisans öğrencileri ve bir doktora adayının yanı sıra araştırma liderleri ve bir profesörden oluşan FMTI ekibinin kökleri, 2019 yılında kurulan Stanford İnsan Odaklı Yapay Zeka Enstitüsü’ne dayanmaktadır. Ekip, “önemli potansiyel” görüyor Endeksin gelecek versiyonlarında da takip etmek istedikleri, test edilen tüm temel modellerinde iyileştirme için”.

Daha fazla ayrıntıyı FMTI web sitesinde ve ilgili GitHub deposunda bulabilirsiniz. Makalenin tamamı arXiv’de bulunabilir.


(rme)



Haberin Sonu