xLSTM: Genişletilmiş Uzun Kısa Süreli Bellek – Avrupa'dan daha iyi yapay zeka modelleri

hadicanim · 8 May 2024

Yapay zeka öncüsü Sepp Hochreiter liderliğindeki Linz merkezli start-up NXAI'deki ekip, daha önce yaygın olan Transformer mimarisinden daha üstün olduğu söylenen dil modelleri için daha güçlü bir mimari sundukları bilimsel bir makale yayınladı. Genişletilmiş LSTM modelleri (xLSTM) olarak adlandırılan modeller, çok sayıda kıyaslamada saf transformatör modellerinden daha iyi performans göstermeyi amaçlamaktadır ve önemli ölçüde daha verimlidir.

Reklamcılık

Uzun Kısa Süreli Bellek (LSTM), yapay zeka modellerinin de temelini oluşturan sinir ağlarına yönelik özel bir mimaridir. Yapay zeka araştırmacıları Sepp Hochreiter ve Jürgen Schmidhuber, bunları metinler gibi sıralı verileri işlemek için 1990'lardan beri geliştiriyorlar. Görüntülerde uzmanlaşmış derin evrişimli sinir ağlarının aksine, LSTM'ler bir tür yerleşik kısa süreli belleğe sahiptir. Bu nedenle cümleleri oluştururken veya tamamlarken daha güncel bağlamları dikkate alabilirler. LSTM'ler, Siri ve Alexa gibi tasarruf yardımcılarının başarısının temelini oluşturdu ve ayrıca makine çevirisini önemli ölçüde geliştirdi; Ancak sonuçlar hâlâ insan dili ve formülasyon düzeylerinden çok uzaktaydı.

Büyük kelime bulutu

Transformer mimarisi, en tanınmış kahramanı ChatGPT ile bu alanlara ilk kez girdi. Transformatörler, bağlamda sık kullanılan terimlerin birbirine yakın olmasını sağlayacak şekilde kelimelerin ve kelime bölümlerinin kodlandığı bir dikkat mekanizmasına sahiptir. Bu şekilde işlenen bir metin daha sonra devasa, sıralanmış bir kelime bulutu olarak hayal edilebilir. Transformatörlerin önemli ölçüde daha büyük miktarda metni hatırlayabilmesinin ve birbirinden daha uzak bağlamları alabilmesinin nedeni budur. Linz'deki Johannes Keppler Üniversitesi ile bir araştırma işbirliği yürüten NXAI'ye göre, sözde xLSTM modeli artık dünyadaki en güçlü Büyük Dil Modeli (LLM) olmaya hazırlanıyor.

Bir xLSTM modeli oluşturma.

(Resim: Gazeteden ekran görüntüsü.)

xLSTM aslında transformatör teknolojisi ile uzun kısa süreli belleğin birleşimidir. Buna göre, ilgili makalenin araştırma sorusu şu şekildedir: “Modern LLM'lerin en son tekniklerini kullanarak, ancak LSTM'lerin bilinen sınırlamalarını hafifleterek LSTM'leri milyarlarca parametreye ölçeklendirirsek dil modellemede ne kadar ileri gidebiliriz?” Araştırmacılar, sonucun şu anda kullanımda olan transformatörlerle karşılaştırıldığında performans ve ölçeklenebilirlik açısından daha iyi performans gösteren bir mimari olduğunu yazıyor.

xLSTM'nin potansiyeli var

Üstel geçitleme derinlemesine gerçekleştirilir, çeşitli kapılar uzun süre dayanan kısa süreli hafızayı oluşturur – dolayısıyla modelin adı. Ayrıca klasik LSTM'ye göre hafıza yapısı da değiştirildi. İlgili makale yayımlandı. Ayrıca şu sonuca varıyor: “xLSTM, takviyeli öğrenme, zaman serisi tahmini veya fiziksel sistemlerin modellenmesi gibi derin öğrenmenin diğer alanlarını önemli ölçüde etkileme potansiyeline sahiptir.”

Ancak yine de potansiyelini daha ileri ve ayrıntılı kıyaslamalarda kanıtlaması gerekiyor. İlk testler için SlimPajama veri kümesindeki 15 milyar ve 300 milyar token üzerinde eğitildi ve Llama ve GPT-3 dahil çeşitli Transformer modelleriyle karşılaştırıldı. xLSTM'nin üst düzey LLM'ler GPT-4, GPT-4V veya Google Gemini ile karşılaştırıldığında nasıl performans göstereceği henüz bilinmiyor. Makalelerinde yazarlar, xLSTM mimarisinin tüm potansiyelinden yararlanabilmesi için kapsamlı bir optimizasyon sürecinin hala gerekli olduğunu kabul ediyorlar.

Avusturya'da araştırma yürüten Alman yapay zeka öncüsü Hochreiter, X'te şöyle yazıyor: “NXAI ile kendi Avrupa LLM'mizi kurmaya başladık. Ekibimle çok gurur duyuyorum.”

Hochreiter bir öğrenci olarak ve o zamanki hocası Jürgen Schmidhuber de Transformer mimarisinin yaratılmasında yer aldı. İkincisi, bu yılki OMR festivalinde yer aldı ve Aleph Alpha'dan Jonas Andrulis ile AI heyecanına ilişkin değerlendirmesinden bahsetti.

ayrıca oku

Daha fazla göster

daha az göster

(emw)

Haberin Sonu

xLSTM: Genişletilmiş Uzun Kısa Süreli Bellek – Avrupa'dan daha iyi yapay zeka modelleri

hadicanim

Aktif Üye