Engineering Logs

Thoughts on System Architecture, AI Agents, and Backend Performance.

GRPO Ensembles Fine-Tuning ve Özelleşmiş Ödül Fonksiyonları Çalışması

Bu yazıda, bir dil modelini GRPO ve farklı ödül fonksiyonlarıyla eğitme sürecimi ele alıyorum. Ayrıca donanım kısıtlarını aşmak için LoRA adaptörlerini manuel birleştirerek oluşturduğum ensemble mimarisini anlatıyorum.

Mahmut Enes ÇEVİK

6 min read