Streaming experts

Simon Willison's Weblog · 24 mars 2026

I wrote about Dan Woods' experiments with streaming experts the other day, the trick where you run larger Mixture-of-Experts models on hardware that doesn't have enough RAM to fit the entire model by instead streaming the necessary expert weights from SSD for each token that you process. Five days ago Dan was running Qwen3.5-397B-A17B in 48GB of RAM. Today @seikixtc reported running the colossal Kimi K2.5 - a 1 trillion parameter model with 32B active weights at any one time, in 96GB of RAM on…

Soutenez Simon Willison's Weblog en consultant la ressource originale

Lire l'article original

Vous aimez découvrir ces sources ?

Soutenez-moi sur Patreon

Articles similaires

La meilleure technologie, c'est celle que l'équipe maîtrise

Récent

Programmation Web

La meilleure technologie, c'est celle que l'équipe maîtrise

Lorsque l’on doit résoudre un problème technique, il est tentant de chercher la solution la plus adaptée. Celle qui répond le mieux aux contraintes identifiées. Pourtant, il peut arriver que la meilleure technologie ne soit pas celle qui colle parfaitement au problème. Choisir une technologie, c’est prendre en compte plusieurs facteurs tels que: les compétences de l’équipe, le temps disponible et la tolérance au risque du projet. Quand les délais sont contraints, le choix doit l’être aussi. La…

22 mai 2026

Laravel 13 : Construis ton propre Shopify de A à Z - Episode 1

🚀 Bienvenue dans le premier épisode de la série où on construit un e-commerce complet avec Laravel 13, Lunar PHP, InertiaJS et Vue 3. Dans cet épisode, on pose les fondations du projet : installation, configuration et découverte de l'écosystème Lunar. 🔥 La suite de la série est exclusivement disponible sur 👉 LaravelJutsu.com ────────────────────────────── 🎯 CE QU'ON COUVRE DANS CET ÉPISODE ────────────────────────────── ✅ Création d'un nouveau projet Laravel 13 ✅ Installation et…

22 mai 2026

Laravel Jutsu (YouTube)

Lire

Forum PHP 2026 - 8&9 octobre, Hotel New York - The Art of Marvel, Disneyland Paris

Récent YouTube

Programmation Web

Forum PHP 2026 - 8&9 octobre, Hotel New York - The Art of Marvel, Disneyland Paris

Le rendez-vous de l'année pour la communauté PHP en France ! Ensemble, comprenons comment évolue notre secteur et dessinons l'avenir de nos métiers. Plus d'informations sur l'événement : https://event.afup.org/ Cette vidéo vous a plu ? Adhérez à l'AFUP pour soutenir son activité : https://afup.org/association/devenir-membre Nous cherchons des sponsors et des conférencier·e·s pour le prochain événement AFUP : https://event.afup.org/ Montage : Nicolas Detrez / https://ncls.tv/ Musique : Benjamin…

22 mai 2026

Laravel 13 a détruit notre système de cache

On voulait juste mettre du cache dans notre application ecommerce Laravel… …et après upgrade Laravel 13 : 💥 Collections cassées 💥 Pagination explosée 💥 __PHP_Incomplete_Class partout Dans cette vidéo je montre : * le changement “serializable_classes” * pourquoi énormément d’apps Laravel vont casser * pourquoi cacher des modèles Eloquent complets devient dangereux * et surtout la nouvelle approche propre pour le cache Laravel Vidéo issue de notre vraie série ecommerce sur laraveljutsu.com 🚀…

22 mai 2026

Laravel Jutsu (YouTube)

Lire