Thoughts on System Architecture, AI Agents, and Backend Performance.
Bu yazıda, bir dil modelini GRPO ve farklı ödül fonksiyonlarıyla eğitme sürecimi ele alıyorum. Ayrıca donanım kısıtlarını aşmak için LoRA adaptörlerini manuel birleştirerek oluşturduğum ensemble mimarisini anlatıyorum.