Tinker : fine-tuner des LLMs sur laptop avec Thinking Machines

La startup Thinking Machines, fondée par l'ancienne CTO d'OpenAI Mira Murati, dévoile son premier produit commercial : Tinker. Cette API innovante permet aux développeurs et chercheurs d'affiner des modèles de langage volumineux (LLM) directement depuis leur ordinateur portable, tandis que la plateforme gère en arrière-plan la complexité de l'infrastructure de calcul distribuée.

Une révolution pour la recherche en IA

Tinker se présente comme un service managé qui prend en charge l'ordonnancement des tâches, l'allocation des ressources et la récupération après panne. Cette approche permet aux utilisateurs de lancer des expériences de petite ou grande envergure immédiatement, sans se préoccuper de la gestion infrastructurelle sous-jacente.

« Cette API donne aux chercheurs et développeurs le contrôle sur les algorithmes et les données, tandis que nous gérons la complexité de l'entraînement distribué », explique Thinking Machines dans un communiqué.

Support étendu des modèles open-source

L'API prend en charge tous les modèles à poids ouvert populaires, notamment ceux d'Alibaba (Qwen) et de Meta (Llama), couvrant un spectre allant des petits modèles aux architectures Mixture-of-Experts (MoE) les plus complexes. Cette compatibilité étendue répond aux besoins variés de la communauté de recherche.

La technologie utilise la méthode LoRA (Low-Rank Adaptation), une approche d'affinage efficace qui permet d'adapter des modèles massifs à des tâches spécifiques en ajoutant des matrices de faible rang plutôt que de modifier l'ensemble du modèle. Cette technique réduit considérablement les exigences computationnelles tout en maintenant des performances élevées.

Des primitives de bas niveau pour un contrôle maximal

Tinker fournit des primitives de bas niveau comme forward_backward et sample, permettant d'implémenter les méthodes de post-entraînement les plus courantes. Pour accompagner les développeurs, la startup a également publié une bibliothèque open-source baptisée « Tinker Cookbook », qui détaille les implémentations modernes des méthodes de post-entraînement fonctionnant avec l'API Tinker.

Adoption précoce par les universités d'élite

Déjà testé par des chercheurs de Princeton, Stanford, Berkeley et Redwood Research, Tinker démontre son utilité dans des environnements académiques exigeants. Le groupe SkyRL de Berkeley a notamment mené des expériences sur une boucle d'entraînement RL asynchrone personnalisée avec multi-agents et utilisation d'outils multi-tours.

« En tant qu'universitaire, je trouve que c'est une plateforme extraordinaire qui rend l'entraînement RL à l'échelle de plus de 10 milliards de paramètres facilement accessible », témoigne Xi Ye, chercheur postdoctoral à l'Université de Princeton.

Répondre au défi computationnel des modèles MoE

La montée en puissance des modèles Mixture-of-Experts représente un défi technique majeur pour la communauté de recherche. Ces architectures nécessitent des déploiements multi-nœuds importants et des milliers de requêtes parallèles, rendant l'affinage inaccessible aux configurations amateur.

« Les GPU n'atteignent de bonnes performances qu'avec de grandes tailles de lot (plus de 256 tokens), mais le routage MoE augmente considérablement les exigences de requêtes parallèles », explique Horace He de Thinking Machines. « Avec la parcimonie 32 voies de DeepSeekV3, l'efficacité nécessite environ 8 192 requêtes parallèles. »

Une abstraction au bon niveau

John Schulman, cofondateur d'OpenAI maintenant chez Thinking Machines, souligne que « Tinker fournit une couche d'abstraction qui est la bonne pour la R&D en post-entraînement ». Cette approche permet aux chercheurs de se concentrer sur l'essentiel : les algorithmes et les données.

Tyler Griggs, doctorant à l'Université de Californie à Berkeley, confirme : « La conception de l'API est propre. J'ai expérimenté le RL multi-tours, le RL asynchrone, les fonctions de perte personnalisées, et même un peu d'entraînement multi-agents, et j'ai pu facilement exprimer chacun de ces concepts dans l'API Tinker. »

Accessibilité et modèle économique

Tinker est actuellement disponible sur liste d'attente et démarre gratuitement, avec une tarification à l'usage qui sera introduite dans les prochaines semaines. Ce modèle vise à démocratiser l'accès aux technologies d'affinage de modèles volumineux, traditionnellement réservées aux organisations disposant d'importantes ressources computationnelles.

À retenir

Tinker permet l'affinage de LLMs depuis un ordinateur portable standard
Gestion automatique de l'infrastructure GPU distribuée en arrière-plan
Support des modèles open-source incluant les architectures Mixture-of-Experts
Utilisation de la méthode LoRA pour une adaptation efficace
Déjà adopté par des universités prestigieuses (Princeton, Stanford, Berkeley)
Actuellement en accès gratuit via liste d'attente