Kompakt ohne Kompromisse: Quantisierung, Pruning, Distillation
INT8‑Quantisierung reduziert Größe und beschleunigt Inferenz, besonders mit per‑Channel‑Skalierung. Ein sorgfältig kuratiertes Kalibrierungs‑Dataset vermeidet Genauigkeitseinbrüche. Post‑Training Quantization ist der Einstieg; Quantization‑Aware Training holt oft die letzten Prozentpunkte zurück. Kommentiert, welche Operatoren euch dabei Kopfzerbrechen bereiten.
Kompakt ohne Kompromisse: Quantisierung, Pruning, Distillation
Magnitude‑basiertes Pruning entfernt Gewichte mit geringem Einfluss, strukturiertes Pruning ganze Kanäle. Mobil profitiert vor allem strukturierte Sparsamkeit, da sie echte Beschleunigung ermöglicht. Kombiniert mit Retraining stabilisiert ihr Quality. Teilt eure Erfahrungen mit 20–50% Sparrate und deren Einfluss auf p95.