Databricks, Dolly 2.0 adlı ilk açık kaynaklı talimat ayarlı dil modelinin yayınlandığını duyurdu. InstructGPT ile benzer bir metodoloji kullanılarak ancak %100 açık kaynak olduğu iddia edilen daha yüksek kaliteli bir veri kümesiyle eğitildi.

Bu modelin her parçası %100 açık kaynak olduğundan, ticari amaçlar da dahil olmak üzere kullanımı ücretsizdir.

Açık Kaynak Eğitimi Eğitimi

ChatGPT’nin yönergeleri takip etmesini sağlayan şey, InstructGPT araştırma belgesinde belirtilen teknikleri kullanarak aldığı eğitimdir.

InstructGPT ile keşfedilen buluş, dil modellerinin daha büyük ve daha büyük eğitim setlerine ihtiyaç duymamasıdır.

OpenAI, insanlar tarafından değerlendirilen soru-cevap eğitimini kullanarak, önceki model olan GPT-3’ten yüz kat daha az parametre kullanarak daha iyi bir dil modeli eğitmeyi başardı.

Databricks, çağırdıkları bilgi istemi ve yanıt veri kümesini oluşturmak için benzer bir yaklaşım kullandı. databricks-dolly-15k.

Bilgi istemi/yanıt veri seti, web forumları veya Reddit’i kazımadan oluşturuldu.

databricks-dolly-15k, ChatGPT modelinin InstructGPT ile oluşturulduğu şekilde Dolly 2.0 dil modelini eğitmek için tasarlanmış %100 orijinal, insan tarafından oluşturulmuş 15.000 istem ve yanıt çifti olan Databricks çalışanları tarafından oluşturulan bir veri kümesidir.

Veri kümesinin GitHub sayfası, bunu nasıl yaptıklarını açıklıyor:

“databricks-dolly-15k, binlerce Databricks çalışanı tarafından beyin fırtınası, sınıflandırma dahil olmak üzere InstructGPT belgesinde belirtilen çeşitli davranış kategorilerinde oluşturulmuş, eğitim databricks/dolly-v2-12b’de kullanılan yönergeleri izleyen kayıtların açık kaynaklı bir veri kümesidir. , kapalı KG, oluşturma, bilgi çıkarma, açık KG ve özetleme.

…Databricks çalışanları, InstructGPT belgesinde belirtilen yedi kategorinin yanı sıra açık uçlu bir serbest biçim kategorisi de dahil olmak üzere sekiz farklı talimat kategorisinin her birinde bilgi istemi / yanıt çiftleri oluşturmaya davet edildi.

Katkıda bulunanlara, Wikipedia hariç (belirli talimat kategorileri alt kümeleri için) web üzerindeki herhangi bir kaynaktan bilgi kullanmaktan kaçınmaları talimatı verildi ve talimatları veya yanıtları formüle ederken üretken yapay zekayı kullanmaktan kaçınmaları açıkça talimat verildi. Her kategoriye uygun soru türlerini ve yönergeleri motive etmek için her davranışa ilişkin örnekler verilmiştir.

Veri oluşturma sürecinin yarısında, katkıda bulunanlara diğer katkıda bulunanlar tarafından sorulan soruları yanıtlama seçeneği verildi. Orijinal soruyu yeniden ifade etmeleri ve yalnızca makul olarak doğru yanıtlamaları beklenebilecek soruları seçmeleri istendi.”

Databricks, bunun, tıpkı ChatGPT’nin yaptığı gibi, bir dil modelini yönergeleri takip edecek şekilde eğitmek için oluşturulmuş, insan yapımı ilk yönerge veri kümesi olabileceğini iddia ediyor.

Buradaki zorluk, ChatGPT veya kısıtlayıcı bir lisansa sahip başka herhangi bir kaynakla sıfır bağı olan %100 orijinal bir veri kümesi oluşturmaktı.

Beyin fırtınası, sınıflandırma ve yaratıcı yazma gibi yedi görev kategorisinde 15.000 istem/yanıt oluşturulmasına katkıda bulunmak için çalışanlar bir yarışma ile teşvik edildi.

Databricks, databricks-dolly-15k eğitim setinin ChatGPT’yi eğitmek için kullanılan veri setinden daha üstün olabileceğini öne sürüyor.

Veri kümelerinin Stanford Alpaka modelini eğitmek için kullanılandan daha küçük olmasına rağmen, verilerinin daha kaliteli olması nedeniyle modellerinin daha iyi performans gösterdiğini belirtiyorlar.

Onlar yazar:

“EleutherAI’nin pythia-12b’sine dayanan Dolly 2.0 modeli, davranışı izleyen yüksek kaliteli talimat sergiledi. Geriye dönüp bakıldığında, bu şaşırtıcı değil.

Son aylarda yayınlanan talimat ayarlama veri setlerinin çoğu, genellikle halüsinasyonlar ve olgusal hatalar içeren sentezlenmiş veriler içerir.

databricks-dolly-15k ise profesyoneller tarafından üretilir, yüksek kalitededir ve çoğu görev için uzun yanıtlar içerir.

…Dolly’nin etkinlik açısından son teknoloji olmasını beklemiyoruz.

Bununla birlikte, Dolly ve açık kaynak veri setinin, çok daha güçlü dil modellerini önyüklemeye hizmet edebilecek çok sayıda devam çalışması için tohum işlevi görmesini bekliyoruz.”

Veri Kümesine İlişkin Sınırlamalar

Veri kümesinin GitHub sayfası, veri kümesinde bazı eksiklikler olabileceğini kabul eder.

Bilgi istemleri ve yanıtlar oluşturma bağlamında eğitimin bir kısmı için Wikipedia verileri kullanıldı. Bu nedenle, Vikipedi’de yer alan önyargı ne olursa olsun sonuçta ortaya çıkan veri kümesine yansıması mümkündür.

Veri setini oluşturmak için çalışan bazı çalışanların anadili İngilizce değildi, bu da veri setinde bazı anormalliklere yol açabilir.

Veri setini oluşturan çalışanların demografik yapısının kendisi, veri setinin bu çalışanlara özgü önyargıları içermesini etkileyebilir.

Databricks, veri setindeki olası eksikliklere rağmen kendilerininkinin daha kaliteli olduğunu ifade etti.

Ek olarak Dolly 2.0, başkalarının daha da iyi sürümler yaratması ve yenilik yapması için bir başlangıç ​​noktası olarak hizmet etmeyi amaçlıyor.

Databricks, Açık Kaynak Yapay Zekanın Daha İyi Olduğu Konusunda Israr Ediyor

Dolly 2.0’ı yaratmanın arkasındaki motivasyonlardan biri, veri kullanıcılarının oluşturdukları modellere sahip olabilmeleri ve verilerini üçüncü bir tarafla paylaşmak zorunda kalmadan daha iyi koruyabilmeleridir.

Ayrıca, AI güvenliğinin üç büyük şirketin elinde yoğunlaşmaması, tüm paydaşlar arasında yayılması gerektiğine inanıyorlar.

Açık kaynak ivme kazanıyor ve bu endüstrinin önümüzdeki iki yıl içinde nerede olduğunu görmek ilginç olacak.

Dolly 2.0 modelinin nereden indirileceği ve nasıl kullanılacağı hakkında daha fazla bilgiyi duyurularında bulabilirsiniz.

Ücretsiz Dolly: Dünyanın İlk Gerçekten Açık Talimatla Ayarlanmış LLM’si Karşınızda

Shutterstock/Kamil Macniak tarafından öne çıkan görsel