Google I/O: Video yapay zekası, arama yapay zekası ve daha fazla yapay zeka

hadicanim · 15 May 2024

Google I/O: Video yapay zekası, arama yapay zekası ve daha fazla yapay zeka

Google'ın I/O geliştirici konferansında sunduğu AI hizmetlerinin ve ürünlerinin listesi çok uzun. Salı akşamı Google I/O'nun başlangıcında CEO Sundar Pichai, “On yılı aşkın süredir yapay zekaya yatırım yapıyoruz ve her düzeyde yenilikler yarattık” dedi. Google şu anda “İkizler çağında” ve I/O'da Gemini ve onun takipçileri hakkında da çok şey olacak.

Reklamcılık

Gemini AI modeli daha da güçlü hale gelecek ve Google'ın artık “Gemini 1.5 Flash” olarak adlandırdığı yeni bir sürümde karşımıza çıkacak. Diğer öne çıkanlar arasında muhtemelen OpenAI'nin Sora'sına rakip olacak bir video yapay zekası olan Veo yer alacak. Arama motoru, arama sonuçlarının üzerinde görüntülenen, arama sorgusunun otomatik olarak yazılan özetleri olan bir “Yapay Zeka Genel Bakışı” alır. Google, Project Astra ile yakın zamanda OpenAI'nin ChatGPT'sine eklenen bir işlev üzerinde çalışıyor: Gemini (sohbet robotu) ile aynı anda hem kamera hem de ses kullanarak etkileşim kurabilirsiniz. Bu işlev yakında Gemini Live adı altında Gelişmiş müşteriler için Gemini uygulamasında da kullanıma sunulacak.

Gemini, Google'ın farklı versiyonları bulunan mevcut yapay zeka modelidir. Bugüne kadarki en büyük sürüm olan Gemini 1.5 Pro, artık Vertex AI ve Google AI Studio müşterileri için bir milyon jetonluk bağlam uzunluğuyla geliyor. API'yi kullanan geliştiriciler ve Google Cloud müşterileri için bağlam uzunluğu artık iki milyon jetona kadar genişletildi. Google'a göre Gemini 1.5 Pro her alanda iyileştirildi. Model halihazırda API ve Google AI Studio aracılığıyla ses ve videoyu işleyebiliyor.

Gemini ayrıca Google'ın Mesajları gibi daha fazla hizmete de geçiş yapacak. YouTube uzantısı gibi daha fazla uzantı var, takvim ve görevler entegre. Bu, örneğin takvime aktarılan bir etkinlik bildiriminin fotoğrafını çekmek için Gemini uygulamasını kullanabileceğiniz anlamına gelir. Gems, İleri düzey kullanıcıların kendileri için oluşturabilecekleri kişiselleştirilmiş AI sohbet robotlarıdır. Bu, Meta'nın yapay zeka kişiliğine benziyor. Örneğin bir koşu antrenörü oluşturabilirsiniz.

Google, Gemma 2'yi açık bir model, yeni mimariye sahip bir model olarak sunuyor; ilk başta bu kadar spesifik olmayacak. Ayrıca yeni olan, bir vizyon dili modeli olan açık PaliGemma'dır.

Sürükleyici deneyimler için Gemini 1.5 Flash ve Project Astra

Gemini 1.5 Flash'ın özellikle uygun maliyetli ve hızlı olduğu söyleniyor. Google bunun sıklıkla talep edilen bir özellik olduğunu söylüyor. Google'a göre model, sohbetten resim ve video altyazısı ekleme veya veri analizine kadar tüm görevler için idealdir. Google DeepMind CEO'su Demis Hassabis, “Bunun nedeni, 1.5 Pro'nun, temel bilgi ve becerileri daha büyük bir modelden daha küçük, daha verimli bir modele aktaran 'damıtma' adı verilen bir süreç aracılığıyla eğitilmiş olmasıdır” diye açıklıyor.

Gemini Nano'nun farkı, bugüne kadarki en küçük Gemini modelinin mobil cihazlar için optimize edilmiş olmasıdır. Pixel cihazlarıyla yakında Nano'yu yalnızca metin yoluyla değil aynı zamanda görme, duyma ve konuşma dili aracılığıyla da çok modlu olarak kullanmak mümkün olacak.

Google, yapay zeka aracılarına yönelik çalışmalarını “Proje Astra”da birleştiriyor. Bu ajanların faydalı olabilmeleri için dünyayı anlamaları, olayları hatırlamaları ve hareket etmeleri gerekecekti. Project Astra, Gemini'nin yanı sıra Google'ın belirtmediği göreve özel modellere de güveniyor. Gelecekteki Google AI asistanına akıllı telefon veya gözlük aracılığıyla erişilebilmelidir. Google, I/O'daki videoda görülebilen bu “gözlüğün” ne zaman satışa sunulacağını henüz söylemiyor. Gemini uygulamasının bu yıl bazı özelliklere sahip olması bekleniyor: Gemini Live bundan sonra yalnızca ileri düzey kullanıcılar için geçerli olacak.

OpenAI bu uygulamayla Google'ı biraz geride bıraktı. G/Ç'den bir gün önce OpenAI, metni, sesi ve görüntüyü birlikte doğal olarak işleyen ve bu nedenle aynı anda hem kamera hem de ses aracılığıyla etkileşime geçilebilen çok amaçlı bir model olan GPT-4o'yu tanıttı. Örnek olarak OpenAI, ChatGPT'den ekranda görünen kodu istemek için sesin nasıl kullanılacağını gösterdi. Google ayrıca yapay zeka asistanının kod hakkında bilgi sağlayabileceği bir örnek de gösteriyor: Ne yapabilir, ne yanlış olabilir ve daha fazlası. Açıkçası pek çok şeyi hatırlayabiliyor çünkü örnek videoda Gemini masanın üzerinde duran gözlükleri nereye uzattığını biliyor.

Veo, Sora ve Imagen 3'e karşı

Google daha sonra Sora ile OpenAI yerine kendi video yapay zekasını sunacak, ancak o da henüz mevcut değil. Veo, bir dakikadan daha uzun, yani Sora'nınkinden daha uzun, tam HD (1080p) videolar üretebilir. Model, “hızlandırılmış çekim” ve “havadan görünüm” gibi kamera ayarlarını anlıyor. Google ayrıca videoların ne kadar tutarlı ve tutarlı olduğunu da vurguluyor; bu henüz test edilemiyor. Geçtiğimiz günlerde bir sanatçı, Sora'nın post prodüksiyonuna çok zaman ayırması gerektiğini açıkladı. Google ayrıca film yapımcılarının Veo ile deneme yapmasına da izin veriyor ve ilk sanatçıların VideoFX'e erişmesi gerekiyor. Google, bazı işlevlerin YouTube Shorts'a da taşınacağını açıklıyor.

Veo, Google'ın video yapay zekasının adıdır.

Görüntü oluşturucu Imagen, sürüm 3'te görünüyor ve tüm alanlarda geliştirildiği söyleniyor: metinle ilgilenme, stillerin çoğaltılması, istemlerin anlaşılması. Imagen 3, ImageFX aracılığıyla ön izleme olarak mevcut ve yakında Vertex AI'ye gelecek.

Lyria, Google'ın Üretken Müzik Yapay Zekasıdır. Gelecekte tüm müzik hizmetleri Music AI Sandbox'ta bir araya getirilecek. SynthID, görüntülere, sese, metne ve videoya gömülebilen, algılanamayan bir dijital filigrandır.

Yapay Zekaya Genel Bakış – Google'ın Yapay Zeka araması

Google yapay zeka aramasını genişletiyor. Ancak bu, Google'ın mevcut aramayı yeni bir yapay zeka arama türüyle değiştirdiği anlamına gelmiyor. Bunun yerine, Google her iki dünyanın en iyilerini birleştirmeye çalışmaktadır: Google'ın arama işlevinin yanı sıra sağladığı devasa bilgi tabanı bu şekilde mevcut olmaya ve var olmaya devam edecektir. Bağlantı listelerinin üzerinde yer alan, ancak yalnızca Google'ın mantıklı olduğunu düşünmesi durumunda ortaya çıkan, AI tarafından oluşturulan yanıtlar olan AI Genel Bakış da vardır.

Google Arama, AI modeli olan Gemini'nin uyarlanmış bir sürümünü içerir. Arama Başkanı Liz Reid, aramanın geleceğini açıklarken şunları söyledi: “Gemini'nin çok seviyeli karar verme, planlama ve çok modluluk gibi gelişmiş yeteneklerini birinci sınıf arama sistemlerimizle bir araya getiriyor.” AI Genel Bakış'ı Google'ın test ortamında deneyen kişiler, sonuçlardan eskisinden daha memnun kaldı. Yıl sonunda fonksiyon test aşamasından normal çalışmaya geçecektir. Daha sonra kimin bu bilgilere erişebileceği belirsizliğini koruyor; “milyarlarca insan” olduğu söyleniyor. Google Labs aracılığıyla AI Genel Bakışı bugüne kadar AB'de mevcut değildir.

Google'ın temel işi: aramada reklamcılık

Google, yeni yanıt biçimi nedeniyle yayıncıların, sanatçıların ve diğer yazarların web sitelerinde daha az kişinin gezineceği ve bu nedenle reklamlarını kaybedeceği endişesine karşı çıkıyor ve kendi deneyimlerine göre daha fazla kişinin yapay zekada göründüklerinde diğer bağlantıları tıkladığını söylüyor. -oluşturulmuş metin. Reklamcılığın aramada yerini bulmaya devam edeceği, tam olarak nerede görüleceği ve web sitelerine aynı sayıda tıklama gelip gelmediği söyleniyor. Arama sonuçlarına cevap kutularının (“sıfır konumu”) eklenmesi zaten bazı site operatörleri için kayıplara neden olmuştur.

AI Genel Bakışı yakında örneğin yanıt türü, dil veya derinlik açısından özelleştirilebilir hale gelecektir. Ancak başlangıçta bu yalnızca ABD'de mümkündür. Gelecekte, buradaki AI araması, birkaç bölümden oluşan sorguları da yanıtlayabilecektir; Google buna “çok adımlı akıl yürütme” adını verir.

Google, gelecekte tek bir sorguda birden fazla bilgi ararken yanıtları AI sürümüne bölecek.

Bir seyahat planlarken aramanın nasıl yardımcı olabileceğine dair örnek kaçırılmamalıdır. Bu görev, ister Google'da ister diğer sağlayıcılarda olsun, her zaman tüm uygulanabilirliğin bariz referans noktası olmuştur ve yıllardır da öyle olmuştur. Ayrıca haftaya yönelik bir beslenme planı oluşturmak istiyorsanız AI araştırması da faydalı olacaktır. Yapması kolaydır, vejetaryenliği zorunluluk haline getirmek gibi ayarlamaları da kolaylıkla yapabilirsiniz. “Arama, yemek planınızı size göre uyarlar.” Bu şimdiye kadar gerçekten klasik bir arama sorgusu olmadı.

Ayrıca yeni olan şey, arama sonuçlarına yapay zeka sayesinde ve yine yalnızca ABD'de ve İngilizce olarak yeni bir düzen verilmesidir. Ancak bu başlangıçta yiyecek, yemek tarifleri, filmler, müzik ve diğerleri gibi bireysel arama sorgularını etkiler.

Google'ın görsel araması

Arama aynı zamanda bir video uzantısı da alıyor. İşlev, Google Lens'in bir uzantısı olarak anlaşılabilir, ancak aynı zamanda bir fotoğrafın bir öğesini daire içine alabileceğiniz ve ardından arama sonuçlarını görebileceğiniz çevrelerde arama da yapılabilir. Örneğin, yakında girdi olarak bir video sağlamak ve ilgili soruları sormak mümkün olacak. Sunumdaki örnek, iğnenin sürekli dışarı fırladığı bir plak çalardır ve soru bunun nedenidir. Bu görsel arama elbette OpenAI'nin ChatGPT'ye yönelik yeni işlevleriyle karşılaştırılabilir; burada kamerada bir şey tutabilir ve aynı anda onun hakkında bir soru sorabilirsiniz.

Reid sözlerini şöyle tamamladı: “Yakında Google, aramayı, basitleştirmeyi, araştırmayı, planlamayı, beyin fırtınasını ve çok daha fazlasını devralacak.”

(emw)

Haberin Sonu

Google I/O: Video yapay zekası, arama yapay zekası ve daha fazla yapay zeka

hadicanim

Aktif Üye