Google, Gemini 1.5 Flash ve Pro İçin Sınırı 2 Milyon Token’a Çıkardı

Google, amiral gemisi yapay zeka modeli olan Gemini’nin iki varyasyonunu (Gemini 1.5 Flash ve Pro’yu) herkese açık hale getiriyor. Bunlardan ilki dar ve yüksek frekanslı görevlerin üstesinden gelen 1 milyon bağlam penceresine sahip küçük bir modeldir. İlk olarak Mayıs ayında Google I/O’da tanıtılmıştı. İkincisi ise Google’ın LLM’sinin en güçlü versiyonu olarak Şubat ayında piyasaya sürüldü ve daha sonra 2 milyon bağlam penceresi içerecek şekilde önemli ölçüde yükseltildi. Bu sürüm artık tüm geliştiriciler tarafından kullanılabilir hale geldi.

Gemini’nin bu varyasyonlarının yayınlanması, Google’ın yapay çalışmalarının işletmelerin “etkileyici” AI aracıları ve çözümleri geliştirmelerini nasıl güçlendirdiğini sergilemeyi amaçlıyor. Google Cloud İcra Kurulu Başkanı Thomas Kurian, bir basın brifing esnasında şirketin üretken yapay çabalarında “inanılmaz bir ivme” gördüğünü ve Accenture, Airbus, Anthropic, Box, Broadcom, Cognizant, Confluent, Databricks, Deloitte, Equifax, Estée Lauder Companies, Ford, GitLab, GM, Golden State Warriors, Goldman Sachs, Hugging Face, IHG Hotels and Resorts, Lufthansa Group, Moody’s, Samsung ve diğerlerinin platformu üzerine inşa ettiğini söyledi. Bu benimsenme artışını Google’ın modellerinin yeteneklerinin ve şirketin Vertex platformunun birleşimine bağlayan Kurian, “Her iki katmanda da yeni yetenekleri hızlı bir şekilde sunmaya devam edeceğiz” diyor.

Google ayrıca geliştirici deneyimini geliştirmek için tasarlanmış yeni model yetenekleri olan bağlam önbellekleme ve sağlanan üretimi de yayınlıyor.

Gemini 1.5 Flash

Gemini 1.5 Flash, geliştiricilere daha düşük gecikme süresi, uygun fiyatlandırma ve perakende sohbet aracılarına, belge işleme ve tüm depoları sentezleyebilen botlara dahil edilmeye uygun bir bağlam penceresi sunuyor. Google, ortalama olarak Gemini 1.5 Flash’ın 10.000 karakterlik bir girdi verildiğinde GPT-3.5 Turbo’dan yüzde 40 daha hızlı olduğunu iddia ediyor. 32.000 karakterden büyük girişler için bağlam önbellekleme etkinleştirildiğinde, OpenAI’ın modelinden dört kat daha düşük bir girdi fiyatına sahip.

Gemini 1.5 Pro

Gemini 1.5 Pro’ya gelince, geliştiriciler çok daha büyük bir bağlam penceresine sahip olmaktan heyecan duyacaklar. 2 milyon token ile kendi sınıfında tek çünkü önemli AI modellerinin hiçbirinde bu kadar yüksek bir sınır bulunmuyor. Bu da bu modelin bir yanıt oluşturmadan önce her zamankinden daha fazla metni işleyebileceği ve değerlendirebileceği anlamına geliyor.

Gemini 1.5 Pro ve Flash İçin Bağlam Önbellekleme Başlıyor

Geliştiricilerin Gemini’nin farklı bağlam pencerelerinden yararlanmasına yardımcı olmak için Google, hem Gemini 1.5 Pro hem de Flash için herkese açık önizlemede bağlam önbelleklemeyi başlatıyor. Bağlam önbellekleme, modellerin her istek aldıklarında her şeyi sıfırdan yeniden hesaplamadan zaten sahip oldukları bilgileri depolamasına ve yeniden kullanmasına olanak tanır. Uzun konuşmalar veya belgeler için yararlıdır ve geliştiricilerin hesaplama maliyetlerini düşürür. Google, bağlam önbelleklemenin girdi maliyetlerini %75 gibi inanılmaz bir oranda azaltabileceğini ortaya koyuyor. Bu özellik, bağlam pencereleri arttıkça daha da kritik hale gelecek.

Gemini İçin Sağlanan Üretim

Sağlanan üretim ile geliştiriciler, Google’ın Gemini modellerini kullanımlarını daha iyi ölçeklendirebilirler. Bu özellik, bir modelin zaman içinde kaç sorguyu veya metni işleyebileceğini belirler. Daha önce geliştiriciler “kullandıkça öde modeli” ile ücretlendiriliyordu ancak şimdi onlara üretim iş yükleri söz konusu olduğunda daha iyi tahmin edilebilirlik ve güvenilirlik sağlayacak sağlanan üretim seçeneğine sahipler.

Kurian, konuyla ilgili görüşlerini şu şekilde sonlandırıyor: “Sağlanan üretim, esasen müşteriler için çıkarım kapasitesini rezerve etmemizi sağlıyor. Ancak, örneğin büyük bir etkinlik düzenliyorsa ve bazı sosyal medya platformu müşterilerimizde gördüğümüz gibi kullanıcı sayısında büyük bir artış görüyorsa, belirli miktarda kapasite rezerve etmek istiyorlarsa, bir hizmet düzeyi açısından istisnalar görmeye başlamamaları için belirli bir zamanda kapasite rezerve edebiliyorlar. Ve bu, modellerimizi genel kullanıma sunduğumuzda veya onlara hem yanıt süresi hem de kullanılabilirlik çalışma süresi açısından bir hizmet düzeyi hedefi konusunda güvence verdiğimizde büyük bir adım.”