
La réponse d'un modèle optimisé par NPU sur PC Copilot+ conserve selon Microsoft une capacité de raisonnement identique à son modèle original. (crédit : Microsoft)
Microsoft a poussé le modèle Deepseek R1 sur Azure AI Foundry et GitHub et annoncé la disponibilité de leurs versions distillées sur les PC Copilot+. La première concernée est la Qwen 1.5B (Alibaba).
Microsoft joue à fond la carte de Deepseek et pousse désormais le modèle R1 de la start-up chinoise sur son service cloud Azure AI Foundry. Mais le fournisseur n'oublie pas les utilisateurs souhaitant faire tourner en local sur des PC Copilot+ les versions distillées de ce modèle. Les premiers systèmes capables de les exécuter seront d'abord ceux embarquant des puces Qualcomm Snapdragon X, puis ceux équipés de puces Intel Core Ultra 200V. "La première version, Deepseek-R1-Distill-Qwen-1.5B, sera disponible dans AI Toolkit, et les variantes 7B et 14B arriveront bientôt", explique Microsoft. "Ces modèles optimisés permettent aux développeurs de créer et de déployer des applications basées sur l'IA qui s'exécutent efficacement sur un appareil, en tirant pleinement parti des puissants NPU des PC Copilot+."
Deepseek-R1-Distill-Qwen-1.5B combine le LLM Deepseek R1 avec le SLM Qwen2.5-Math-1.5B d'Alibaba spécialisé dans les mathématiques et le raisonnement logique. A noter que Deepseek propose en tout six versions distillées de grands modèles, non seulement Qwen, mais aussi Llama de Meta combiné à R1. Rappelons que la distillation est un processus qui transfère les connaissances et les capacités de raisonnement du grand modèle vers des modèles plus petits, ce qui leur permet d'être performants dans les tâches de raisonnement tout en étant plus légers, moins gourmands en ressources et plus faciles à déployer. Tournant en local, l'utilisateur n'aura pas besoin de payer de tokens pour les versions distillées de Deepseek-R1-Distill-Qwen-1.5B, 7B et 14B. Quant à Deepseek R1, notons que son tarif par million de tokens généré, est très abordable (2,19$) à comparer aux 60$ pour OpenAI o1 et 15$ pour chatGPT 4o. Rappelons que le nombre de tokens, à savoir l'unité de base utilisée pour représenter et traiter le langage par des systèmes de GenAI, dépendra de la langue et du modèle spécifique utilisé. Par exemple 1 mot en anglais équivaut à 1,3 token et un mot en français à 2 tokens. A noter que les LLM et autre SLM comme Deepseek-R1 ou Alibaba Qwen peuvent aussi être téléchargé en local via LM Studio sur Mac ou PC.
Des modèles distillés performants
Selon Microsoft, les modèles distillés de Deepseek optimisés pour les NPU tirent parti de plusieurs techniques d'apprentissages pour obtenir les meilleurs compromis entre la performance et l'efficacité, tel que la quantification à faible débit binaire et le mapping des transformeurs sur le NPU. "En outre, nous tirons parti de Windows Copilot Runtime (WCR) pour nous adapter à la diversité de l'écosystème Windows avec le format ONNX QDQ", fait savoir le fournisseur. Par exemple, le modèle distillé R1 Qwen 1.5B se compose d'un tokenizer, d'une couche d'intégration, d'un modèle de traitement du contexte, d'un modèle d'itération des tokens, d'une tête de modèle linguistique et d'un tokenizer. "Nous utilisons une quantification par blocs de 4 bits pour les enchâssements et la tête du modèle de langage et exécutons ces opérations lourdes en termes d'accès à la mémoire sur l'unité centrale", fait savoir Microsoft. "Nous concentrons l'essentiel de nos efforts d'optimisation NPU sur le transformer à forte capacité de calcul contenant le traitement du contexte et l'itération des jetons, dans lequel nous utilisons une quantification int4 par canal et une précision mixte sélective pour les poids d'un modèle ainsi que des activations int16."
Faible empreinte mémoire et inférence rapide
Pour atteindre le double objectif d'une faible empreinte mémoire et d'une inférence rapide, à l'instar de Phi Silica [un modèle de langage local intégrable dans des applications Windows via Windows App SDK, ndlr], Microsoft apporte deux changements clés. "Tout d'abord nous nous appuyons sur une concept de sliding window pour débloquer très rapidement un premier jeton et supportons le contexte long malgré l'absence de support de tenseur dynamique dans la pile matérielle. Deuxièmement, nous utilisons le schéma de quantification QuaRot à 4 bits pour tirer véritablement parti du traitement à faible nombre de bits. QuaRot utilise des rotations Hadamard pour supprimer les valeurs aberrantes ce qui facilite la quantification du modèle", explique la société. "QuaRot améliore considérablement la précision de la quantification par rapport aux méthodes existantes, telles que GPTQ, en particulier pour les paramètres de faible granularité tels que la quantification par canal [...] Grâce à ces optimisations, le modèle est capable d'atteindre un délai de 130 ms pour le premier jeton et un débit de 16 jetons/s pour les prompts courts inférieurs à 64 tokens."
Pour accéder à Deepseek sur un PC Copilot+, il est nécessaire de télécharger l'extension AI Toolkit VS Code. "Le modèle Deepseek optimisé au format ONNX QDQ sera bientôt disponible dans le catalogue de modèles d'AI Toolkit, tiré directement d'Azure AI Foundry", précise Microsoft. En plus du modèle ONNX optimisé pour PC Copilot+, l'éditeur proposer aussi d'essayer le modèle source hébergé dans Azure Foundry en cliquant sur le bouton try in Playground sous Deepseek R1.
Suivez-nous