Claude Opus 4.8: yargı, dürüstlük ve daha uzun özerklik
Anthropic bugün Claude Opus 4.8'i yayınladı: kod hatalarını 4 kat daha az kaçıran, daha dürüst ve daha uzun süre özerk çalışan yeni model.
Anthropic bugün, 28 Mayıs 2026'da Claude Opus 4.8'i yayınladı. Önceki sürümden bu yana iki ay bile geçmemişti. Tek satırlık özeti şu: model daha hızlı değil, daha dürüst — ne yaptığını ve nerede tıkandığını saklamadan söylüyor.
Ne açıklandı
Anthropic, Opus 4.8'i "daha keskin yargı, ilerlemesi konusunda daha fazla dürüstlük ve seleflerinden daha uzun süre bağımsız çalışabilme" başlıklarıyla tanıttı. Resmi duyurudaki en somut iddia kodlama tarafında: model, ürettiği koddaki kusurları gözden kaçırma olasılığı bakımından Opus 4.7'ye göre dört kat daha az hata yapıyor. Erken test eden kullanıcılar da modelin işine dair belirsizlikleri daha sık işaretlediğini, desteksiz iddialarda bulunmaktan kaçındığını söylüyor.
Fiyat aynı kaldı: standart kullanımda milyon giriş token'ı 5 dolar, milyon çıkış token'ı 25 dolar. API'de `claude-opus-4-8` kimliğiyle, ayrıca Amazon Bedrock ve Vertex AI üzerinden erişilebiliyor; 1M token bağlam penceresi varsayılan.
Ne değişti
Önceki sürüme kıyasla üç yenilik öne çıkıyor.
Birincisi efor kontrolü: artık claude.ai ve Cowork'te Claude'un bir yanıta ne kadar "düşünme" harcayacağını Low'dan Max'e kadar kendin seçebiliyorsun. Opus 4.8 varsayılan olarak yüksek eforda geliyor — hız ile kalite arasında dengeyi sen ayarlıyorsun.
İkincisi Dynamic Workflows (araştırma önizlemesinde): Claude tek bir oturumda onlarca-yüzlerce paralel alt-ajanı orkestre eden script'ler yazıyor, probleme farklı açılardan saldırıyor, hatta bulguları çürütmeye çalışan karşıt ajanlar devreye sokuyor ve cevaplar yakınsayana kadar yineliyor. Bu özellik şimdilik Claude Code'un Enterprise/Team/Max katmanlarında.
Üçüncüsü hızlı mod: 2,5 kat hızda çalışıyor. Bu, daha önce token-bazlı ücretlendirmenin nasıl değiştiğini yazdığım noktayı doğrudan ilgilendiriyor — hız artık ayrı bir fiyat kalemi.
Benchmark tarafında tablo ölçülü bir ilerleme gösteriyor: ajan kodlamada Opus 4.7'nin önüne geçiyor, OSWorld-Verified'da bilgisayar kullanımı %82 bandında, web gezinme (Online-Mind2Web) %84. Sıçrama değil, istikrarlı bir adım.
İlk izlenim
Dürüst olayım: model bugün çıktı, henüz kendi projelerimde derinlemesine kıyaslama yapacak vaktim olmadı. Bu yüzden buradakiler ilk izlenim, bitmiş bir test değil.
Dikkatimi çeken şey benchmark sayıları değil, Anthropic'in seçtiği çerçeve oldu: "daha dürüst", "ilerlemesi konusunda açık", "kod kusurlarını daha az kaçıran". Solo çalışan biri için bir modelin %2 daha hızlı olması değil, ne zaman emin olmadığını söylemesi fark yaratıyor. Daha önce AI'ın sessizce yanlış kod ürettiği o tehlikeli durumu anlatmıştım — kod çalışır ama yanlıştır ve kimse fark etmez. Opus 4.8'in iddiası tam da bu sessiz hata sınıfını azaltmak. Gerçekten azaltıyor mu, önümüzdeki haftalarda kendi kodumda göreceğim.
Pratik etkisi
TR'deki indie maker ve solo geliştiriciler için en somut kazanım efor kontrolü. Basit işlerde Low'a çekip rate-limit ve maliyet yakmadan, karmaşık refactor'larda Max'e alıp tam beyin gücünü kullanabilmek pratik bir kaldıraç.
Dynamic Workflows ise şimdilik çoğumuz için uzak: enterprise katmanında ve araştırma önizlemesinde. Yüzlerce paralel ajan, tek kişilik bir projede değil; büyük araştırma ya da denetim işlerinde anlam kazanıyor.
Fiyatın sabit kalması iyi haber. Opus 4.7 ile çalışırken fark ettiklerimi yazdığımda en çok maliyet/değer dengesini konuşmuştum; 4.8 aynı fiyata daha iyi yargı veriyorsa, yükseltmemek için sebep az.
Sınırlar ve kaygılar
Benchmark ilerlemeleri ölçülü — "dört kat daha az kod hatası" başlığı güçlü ama bu Anthropic'in kendi ölçümü; gerçek kullanımda nasıl durduğunu bağımsız testler gösterecek. Dynamic Workflows'un kapalı katmanda olması, çoğu bireysel kullanıcının bu özelliği bir süre denemeyeceği anlamına geliyor.
Bir de Mythos var: Anthropic, sınırlı siber güvenlik dağıtımındaki Mythos-sınıfı modelleri "önümüzdeki haftalarda" tüm müşterilere açmayı planladığını yineledi. Bu konuyu Mythos'un kısıtlı erişim modelini yazdığımda detaylandırmıştım; 4.8 duyurusu o takvimin hâlâ canlı olduğunu gösteriyor.
Sonuç
Opus 4.8 bir "her şeyi değiştiren" sürüm değil; daha çok olgunlaşma adımı. Aynı fiyat, daha iyi yargı, daha az sessiz hata ve istersen ayarlayabildiğin efor. Benim planım: birkaç gün kendi kod tabanımda yüksek eforda çalıştırıp, gerçekten daha az hata kaçırıyor mu kendi gözümle görmek. Acele yükseltme şart değil ama beklemek için de bir sebep göremiyorum.
Şunu itiraf edeyim: bu yazıyı yazarken kullandığım modelin kendisi de artık 4.8. Yani "daha dürüst" iddiasını bir bakıma canlı test ediyorum — ve şimdilik, nerede emin olmadığını söylemesi hoşuma gidiyor. Asıl yargıyı birkaç gün sonra, kendi kodumla vereceğim.