OpenAI GPT-4 Mart 2023’ün Ortasına Geliyor Ve Çok Büyük
Microsoft Almanya CTO’su Andreas Braun, GPT-4’ün 9 Mart 2023’e kadar bir hafta içinde geleceğini ve çok modlu olacağını doğruladı. Multimodal AI, video, görüntü ve ses gibi birden fazla girdi türünde çalışabileceği anlamına gelir.
Çok Modlu Büyük Dil Modelleri
Duyurudan çıkarılacak en büyük çıkarım, GPT-4’ün çok modlu olmasıdır (SEJ, Ocak 2023’te GPT-4’ün çok modlu olduğunu tahmin etmiştir).
Modalite, (bu durumda) büyük bir dil modelinin ele aldığı girdi tipine yapılan bir referanstır.
Multimodal metin, konuşma, resim ve videoyu kapsayabilir.
GPT-3 ve GPT-3.5 yalnızca tek bir modda çalışır, metin.
Alman haber raporuna göre GPT-4, görüntü, ses (işitsel), metin ve video olmak üzere en az dört modda çalışabilir.
Microsoft Almanya CTO’su Dr. Andreas Braun’dan alıntı:
“Önümüzdeki hafta GPT-4’ü tanıtacağız, orada tamamen farklı olanaklar sunacak multimodal modellerimiz olacak – örneğin videolar…”
Raporlamada GPT-4’e ilişkin ayrıntılar yoktu, bu nedenle çok modluluk hakkında paylaşılanların GPT-4’e özgü mü yoksa genel olarak mı olduğu net değil.
Microsoft İş Stratejisi Direktörü Holger Kenn çoklu modaliteleri açıkladı, ancak raporda GPT-4 çoklu modalitesine mi yoksa genel olarak çoklu modaliteye mi atıfta bulunduğu net değildi.
Çok modluluğa yaptığı referansların GPT-4’e özgü olduğuna inanıyorum.
Paylaşılan haber şu şekilde:
“Kenn, metni yalnızca uygun şekilde görüntülere değil, aynı zamanda müzik ve videoya da çevirebilen çok modlu yapay zekanın ne hakkında olduğunu açıkladı.”
Bir başka ilginç gerçek ise Microsoft’un “güven ölçümleri” AI’larını daha güvenilir hale getirmek için gerçeklere dayandırmak için.
Microsoft Kosmos-1
Görünüşe göre Amerika Birleşik Devletleri’nde eksik bildirilen bir şey, Microsoft’un Mart 2023’ün başında Kosmos-1 adlı çok modlu bir dil modeli yayınlamasıdır.
Alman haber sitesi Heise.de’nin haberine göre:
“…ekip önceden eğitilmiş modeli çeşitli testlere tabi tuttu ve görüntülerin sınıflandırılmasında, görüntü içeriğiyle ilgili soruların yanıtlanmasında, görüntülerin otomatik olarak etiketlenmesinde, optik metin tanıma ve konuşma oluşturma görevlerinde iyi sonuçlar aldı.
…Görsel muhakeme, yani dili bir ara adım olarak kullanmadan görüntüler hakkında sonuçlar çıkarmak burada bir anahtar gibi görünüyor…”
Kosmos-1, metin ve görüntülerin modalitelerini bütünleştiren çok modlu bir modeldir.
GPT-4, Kosmos-1’den daha ileri gider çünkü üçüncü bir modalite, video ekler ve görünüşe göre ses kipliğini de içerir.
Birden Çok Dilde Çalışır
GPT-4’ün tüm dillerde çalıştığı görülüyor. Almanca soru alıp İtalyanca cevap verebilmek olarak tanımlanıyor.
Bu biraz garip bir örnek, çünkü kim Almanca soru sorup da İtalyanca cevap almak ister ki?
Bu doğrulandı:
“…teknoloji o kadar ilerledi ki temelde “tüm dillerde çalışıyor”: Almanca soru sorup İtalyanca cevap alabilirsiniz.
Multimodalite ile Microsoft(-OpenAI), modelleri ‘kapsamlı hale getirecek’.”
Atılım noktasının, modelin farklı diller arasında bilgi çekme becerisiyle dili aşması olduğuna inanıyorum. Yani cevap İtalyanca ise, bunu bilecek ve cevabı sorunun sorulduğu dilde verebilecektir.
Bu, Google’ın MUM adlı çok modlu yapay zekasının hedefine benzer hale getirir. Annemin, verilerin yalnızca Japonca gibi başka bir dilde mevcut olduğu durumlarda İngilizce yanıtlar sağlayabildiği söyleniyor.
GPT-4 Uygulamaları
GPT-4’ün nerede görüneceğine dair güncel bir duyuru yok. Ancak Azure-OpenAI’den özellikle bahsedildi.
Google, rakip bir teknolojiyi kendi arama motoruna entegre ederek Microsoft’a yetişme mücadelesi veriyor. Bu gelişme, Google’ın tüketiciye yönelik AI’da geride kaldığı ve liderlikten yoksun olduğu algısını daha da şiddetlendiriyor.
Google, Google Lens, Google Haritalar ve tüketicilerin Google ile etkileşime girdiği diğer alanlar gibi birden çok ürüne zaten yapay zekayı entegre ediyor.
Sadece Microsoft’un bunu uygulama şekli daha görünür.
Orijinal Almanca raporu buradan okuyun:
GPT-4 önümüzdeki hafta geliyor ve çok modlu olacak, diyor Microsoft Almanya
Shutterstock/Master1305 tarafından öne çıkan görsel
window.addEventListener( 'load2', function() { console.log('load_fin');
if( sopp != 'yes' && !window.ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'gpt-4-is-multimodal', content_category: 'news seo' }); } });
Bir cevap yazın