Küçük modeller büyük modellerin pazarını yiyor

17 May 2026 5 dk okuma Singrey

2026 ortasında 7-8 milyar parametreli modeller, iki yıl önceki GPT-4 seviyesini cebimizde koşturuyor. Solo geliştirici için bu neyi değiştirdi.

Bu yıl sessizce gerçekleşen değişimlerden biri şu: 7-8 milyar parametreli modeller, iki yıl önceki GPT-4 sınıfı bir modelin yaptığı işin büyük çoğunluğunu artık bir laptop üzerinde, bazen bir telefonda yapabiliyor. Manşet olmadığı için kaçırdığımız bu eğri, solo geliştirici için belki de yılın en önemli haberi.

Frontier ile "yeter düzey" arasındaki fark daralıyor

İki yıl önce frontier model ile küçük model arasında uçurum vardı. Bugün uçurum hâlâ var ama "yeter düzey"in çıtası o kadar yükseldi ki günlük işlerin çoğu için frontier model lüks oldu.

Bir blog draft'ı, basit bir veri dönüşümü, bir SQL'in açıklaması, bir form doğrulaması için Claude Opus veya GPT-5.5 çağırmak — çekiçle ceviz kırmak gibi. Gerçek bir alternatif vardı ama latency ve kalite yüzünden seçilmiyordu. Şimdi seçim mantıklı.

Açık ağırlıklı modeller eğriyi öne çekti

Daha önce Kimi K2.6 açık ağırlıklı multimodal modeli ele aldığımda ve GLM-5.1'in Huawei Ascend üzerinde çıktığı dönemde sezgim şuydu: bu modeller manşet olmuyor ama altyapı kararlarını sessizce değiştiriyor.

2026 ortasında o etki artık ölçülebilir. Bir startup'ın "varsayılan olarak hangi modeli koysam" sorusunun cevabı çoktan tek bir kapalı API değil. Açık ağırlıklı bir modeli kendi sunucusunda koşturmak, frontier modeli API'den çekmekten %95 oranında yeterli sonuç verirken maliyeti onda bir.

Solo geliştirici için ne değişti

Ben bu eğriyi pratikte şöyle yaşıyorum: bir araç zinciri kuruyorum, içine artık eskisi gibi tek bir "en iyi" model koymuyorum. Pahalı modeli sadece gerçekten karar gerektiren noktada, ucuz ve hızlı modeli geri kalan her şeyde kullanıyorum.

Sonuç: aynı ürün, eskisinin onda biri maliyetle, daha düşük latency'yle çalışıyor. Üstelik küçük model lokal çalıştığında bir avantaj daha var — internet bağımlılığı yok, kullanıcı verisi cihazdan çıkmıyor.

"Çoklu model" 2026'nın varsayılanı

Bu yazıyı yazmamın asıl sebebi şu farkındalık: 2024-25'te "tek model, her şey" yaklaşımı normaldi. 2026'da "her iş için doğru model" yaklaşımı normalleşti. GPT-5.5'in ChatGPT'de yeni default olmasını yazdığımda işaret ettiğim eğilim aslında daha geniş bir şeyin habercisiydi: aynı kullanıcının önünde, soruya göre farklı boyutta modeller dönüyor.

Bu mimari soyut bir tartışma değil. Cubitz'te aynı şeyi yapıyorum: kullanıcının yazdığı 200 karakterlik girdiyi sınıflandıran bir mini model, sonra gerekirse karar veren bir orta model, sadece üretim aşamasında frontier modele çağrı. Her katman doğru iş için doğru boyut.

Trend nereye gidiyor

Birkaç hızlı tahmin:

• Telefon SoC'lerinin üzerinde varsayılan koşan 4-8B model 2027'de standart olur — Apple Intelligence ve Pixel tarafının ekosistemi bunu zaten hızlandırıyor.

• Açık ağırlıklı küçük model + tool use kombinasyonu, kapalı frontier modele alternatif olarak ciddiye alınır.

• "Hangi modeli kullanıyorsun" sorusu yerini "model katmanını nasıl kurguladın" sorusuna bırakır.

Singrey'in notu

Ben yıllarca "en güçlü modele" gitmenin doğru olduğunu düşünmüştüm. 2026'da fark ettiğim şey şu: en güçlü model çoğu zaman doğru cevabı verir ama doğru cevap sana her zaman lazım değil. "Yeterince iyi cevap" doğru hızda ve doğru fiyatta gelirse, ürün için ondan değerli bir şey yok. Küçük modellerin sessiz devrimi tam olarak bu kapıyı açıyor.