Google duyguları yorumlayabilen PaliGemma 2 modelini duyurdu
Google, geçtiğimiz Mayıs ayında Gemma 2'yi duyurmasının ardından, en son açık görüş-dil modeli (VLM) olarak PaliGemma 2'yi tanıttı. PaliGemma 2 "resimler için ayrıntılı, bağlamsal olarak alakalı başlıklar üretme, basit nesne tanımlamasının ötesine geçerek eylemleri, duyguları ve sahnenin genel anlatımını tanımlama" yeteneğiyle dikkat çekiyor.
Google , ölçeklenebilir performans, uzun altyazı ve özel görevler için destek sunan yeni bir PaliGemma görsel dil modelleri ailesini tanıttı .
PaliGemma 2, Gemma ailesindeki ilk görme-dil modeli olarak ilk sürümün piyasaya sürülmesinden yaklaşık yedi ay sonra 5 Aralık'ta duyuruldu .
Google'a göre, Gemma 2 üzerine inşa edilen PaliGemma 2 modelleri görsel girdiyi görebilir, anlayabilir ve onunla etkileşime girebilir.
PALİGEMMA 2 DUYGULARI YORUMLAYABİLECEK
Google, PaliGemma 2'nin geliştiricilerin uygulamalara daha sofistike görsel dil özellikleri eklemesini kolaylaştırdığını söyledi. Ayrıca, görsellerdeki duyguları ve eylemleri tanımlama dahil olmak üzere daha sofistike altyazılama yetenekleri de sağlıyor.
Google, PaliGemma 2'deki uzun altyazılamanın görseller için ayrıntılı, bağlamsal olarak alakalı altyazılar ürettiğini ve basit nesne tanımlamasının ötesine geçerek eylemleri, duyguları ve sahnenin genel anlatımını tanımladığını söyledi.
Google, PaliGemma 2'nin, doğru optik karakter tanıma ve belgelerdeki tabloların yapısını ve içeriğini anlama gibi en son teknoloji performansıyla uzmanlaşmış görevleri yerine getirebileceğini söyledi.
Şirket, Google araştırmasının kimyasal formül tanıma, müzik notası tanıma, mekansal muhakeme ve göğüs röntgeni raporu oluşturma konusunda lider performans gösterdiğini ekledi.