Le dernier modèle de la startup chinoise DeepSeek dépasse l’IA d’OpenAI dans les défis de raisonnement

La scène technologique mondiale connaît un bouleversement majeur avec le lancement du modèle de raisonnement DeepSeek-R1. Cette innovation exceptionnelle, issue d’une startup chinoise, défie l’ascendant d’OpenAI, traditionnellement considéré comme un pionnier incontesté. La qualité de raisonnement requise pour résoudre des problèmes mathématiques et scientifiques complexes devient le nouvel étalon d’évaluation en intelligence artificielle.

DeepSeek-R1 repose sur des approches novatrices qui lui permettent de surpasser le modèle o1 d’OpenAI sur des critères déterminants. Au cœur de cette révolution, l’aptitude de ce modèle à effectuer des vérifications factuelles lors des requêtes le distingue de ses prédécesseurs, réduisant ainsi les erreurs dénommées « hallucinations » qui ont longtemps affligé les chatbots. L’accent mis sur un processus de réflexion transparent, où chaque étape est visible, apporte une dimension inédite à l’expérience utilisateur.

Ce nouvel affrontement sur la scène des intelligences artificielles alimentera non seulement des discussions intenses autour des avancées technologiques, mais interrogera également l’avenir de la régulation de l’IA face à des enjeux éthiques croissants. Les utilisateurs de DeepSeek-R1 notent déjà des résultats probants face à des questions qui ont par le passé déconcerté d’autres modèles. En effet, quels impacts cette rupture pourrait-elle avoir sur le paysage technologique et économique mondial ?

Point d’information

  • La startup chinoise DeepSeek a introduit un nouveau modèle, DeepSeek-R1.
  • Ce modèle surpasse l’IA d’OpenAI, le modèle o1, dans les défis de raisonnement.
  • DeepSeek-R1 utilise une approche de planification pour traiter des problèmes complexes.
  • Comparé à d’autres modèles, il affiche une meilleure précision dans les réponses à des questions mathématiques et scientifiques.
  • Les tests AIME et MATH ont montré la supériorité de DeepSeek-R1 sur o1.
  • Un aspect clé est sa capacité à vérifier les faits, réduisant ainsi les erreurs de type « hallucinations » courantes chez d’autresia.
  • Le modèle prend jusqu’à 10 secondes pour produire une réponse précise.
  • Il est transparent, permettant aux utilisateurs de suivre le processus de pensée du modèle.
  • Des limitations existent, telles que la difficulté avec certains problèmes logiques.
  • DeepSeek-R1 bloque des requêtes jugées politiquement sensibles selon les critères chinois.

DeepSeek et son modèle révolutionnaire

La startup chinoise DeepSeek a récemment dévoilé son tout nouveau modèle, DeepSeek-R1, conçu pour exceller dans les tâches de raisonnement. Ce modèle met en avant des approches innovantes et surpasse les capacités de l’OpenAI o1, offrant des réponses plus précises aux défis mathématiques et scientifiques.

Fonctionnalités du modèle DeepSeek-R1

Le modèle DeepSeek-R1 se distingue par sa capacité à fact-checker ses réponses. Contrairement aux modèles de langage traditionnels, il prend le temps d’analyser chaque prompt avant de générer une réponse. Cette fonctionnalité unique évite les erreurs telles que les « hallucinations », fréquentes dans des IA comme ChatGPT. De ce fait, la fiabilité des résultats fournis par DeepSeek-R1 est nettement améliorée.

Mécanisme de raisonnement

Le processus de raisonnement de DeepSeek-R1 s’articule sur une planification méticuleuse face à des problématiques complexes. Ce modèle s’efforce de résoudre les tâches étape par étape, garantissant ainsi une précision accrue. Même si cette méthode peut engendrer un délai de réflexion allant jusqu’à dix secondes, elle permet d’atteindre des résultats impressionnants.

Comparaison avec le modèle o1 d’OpenAI

Lors de son lancement, le modèle o1 d’OpenAI a été décrit comme nettement plus performant pour les requêtes nécessitant des compétences en raisonnement, notamment grâce à sa technique de chaîne de pensée. Ce mécanisme décompose les tâches complexes en étapes plus digestes, facilitant leur exécution. Néanmoins, DeepSeek-R1 a réussi à surpasser l’o1 dans deux benchmarks clés : AIME et MATH.

Les performances de DeepSeek-R1

Lors d’évaluations réalisées sur les benchmarks AIME et MATH, DeepSeek-R1 a démontré une supériorité sur l’o1 en fournissant des réponses correctes à des questions considérées comme des pièges, qui avaient perturbé des modèles tels que GPT-4o. Ces résultats indiquent clairement une avancée significative dans le domaine des IA de raisonnement.

Limitations et défis

Malgré ses atouts, DeepSeek-R1 éprouve certaines difficultés. Des utilisateurs ont fait état de problèmes de logique, notamment sur des défis simples comme le Tic-Tac-Toe. Ces imperfections se recoupent avec celles observées sur le modèle o1, suggérant un besoin d’affinement dans les algorithmes de raisonnement.

Politique et censure

La censure demeure un aspect controversé de DeepSeek-R1. Il a été observé que le modèle évite de répondre à des questions politiquement sensibles, comme celles concernant les événements historiques en Chine. Cette contrainte provient d’une exigence réglementaire visant à ce que les modèles s’alignent sur les « valeurs socialistes fondamentales ».

De plus, des utilisateurs ont réussi à contourner les restrictions imposées au modèle. En utilisant des formulations astucieuses, ils ont pu obtenir des réponses relatives à des sujets délicats ou illégaux, révélant ainsi des failles dans le système de filtrage.

Une startup au potentiel unique

DeepSeek se distingue par son financement provenant d’un fonds de couverture quantitatif, ayant pour ambition d’intégrer l’IA dans ses stratégies de trading. Bien qu’il soit encore en phase de pré-lancement, le modèle DeepSeek-R1 attire déjà l’attention du secteur. Son créateur, Liang Wenfeng, visionne le développement d’une IA superintelligente comme étant l’objectif ultime de son entreprise.

Accessibilité et futur du modèle

DeepSeek-R1 est actuellement accessible via l’application DeepSeek Chat, faisant l’objet de restrictions pour les utilisateurs gratuits, limités à cinquante messages par jour. Des projets ultérieurs incluent la mise à disposition du modèle à travers une interface de programmation d’applications, augmentant ainsi son accessibilité et ses usages potentiels dans divers domaines.

Comparaison des modèles de raisonnement IA

Caractéristiques DeepSeek-R1 OpenAI o1
Capacité de raisonnement Développement avancé, meilleurs résultats sur des benchmarks spécifiques Raisonnement solide, mais performances inférieures dans certains contextes
Durée de réflexion Peut prendre jusqu’à 10 secondes pour répondre Utilise un processus de pensée similaire mais parfois moins efficace
Transparence du processus Thought process visible pour l’utilisateur Processus moins détaillé accessible à l’utilisateur
Gestion des requêtes sensibles Bloque certaines questions jugées trop sensibles Moins de restrictions sur les sujets abordés
Dérapages logiques Des difficultés notées sur des problèmes logiques simples Rencontré des problèmes similaires
Utilisation Version beta accessible avec des limitations Modèle largement déployé et accessible