ChatGPT et autres LLM

al2o3 · Message par **al2o3** » 27 janv. 2025, 21:48

Silenius a écrit : ↑
27 janv. 2025, 19:34
DeepSeek avec son "reasonning model" open-source qui n'a pas coute cher a developper coule Nvidia en bourse. Ce modele concurrence o1 de OpenAi. La penurie de gpus performants a force cette entreprise chinoise a faire preuve d'ingeniosite. https://www.youtube.com/watch?v=kxufe-DPPF0

Hello silenus,
Peux tu expliquer un peu? C est quoi le resonning modèle en une ligne, que les milliards de r&d n ont pas vu venir.

Perso j ai rechargé les stocks de tsmc ce matin sur la baisse de 10%, on verra…

LeLama · Message par **LeLama** » 27 janv. 2025, 22:29

Silenius a écrit : ↑
27 janv. 2025, 19:34
DeepSeek avec son "reasonning model" open-source qui n'a pas coute cher a developper coule Nvidia en bourse. Ce modele concurrence o1 de OpenAi. La penurie de gpus performants a force cette entreprise chinoise a faire preuve d'ingeniosite. https://www.youtube.com/watch?v=kxufe-DPPF0

J'ai qq questions, peut etre sais tu repondre.

-1) Combien pese le code source ? Je crois comprendre que ce n'est pas lourd et que la difficulte' est d'estimer les parametres pour faire tourner le code.

-2) Si j'installe DeepSeek sur ma machine ( j'ai vu que c'est open-source, installable sur linux), j'ai la version complete ou bien est ce que faire tourner une version performante demande de gros serveurs de donnees ? Ici aussi, j'ai l'impression que c'est le calcul des parametres en amont qui est difficile, mais qu'ensuite on a un LLM de haut niveau sur une machine assez standard.

Message par **energy_isere** » 27 janv. 2025, 23:46

DeepSeek: le "ChatGPT chinois" qui agite la Silicon Valley

Boursorama avec Media Services •27/01/2025

DeepSeek, l'agent conversationnel d'une start-up chinoise éponyme utilisant l'intelligence artificielle (IA), a grimpé en tête des téléchargements sur l'App Store, surprenant les analystes par sa capacité à égaler les performances de ses principaux concurrents américains. Ce "chatbot" agite actuellement l'industrie des hautes technologies, notamment les géants américains comme Nvidia et Meta, qui ont dépensé des sommes colossales pour dominer le secteur en plein essor de l'IA. Voici ce qu'il faut savoir sur DeepSeek.

"Le meilleur"?

DeepSeek a été conçu par une start-up basée à Hangzhou (est de la Chine) une ville connue pour sa forte concentration d'entreprises technologiques.

Disponible en application ou sur ordinateur, il offre de nombreuses fonctionnalités similaires à celles de ses concurrents occidentaux: écrire des paroles de chansons, aider à affronter des situations de la vie quotidienne ou encore proposer une recette adaptée au contenu de son réfrigérateur.

DeepSeek peut communiquer dans plusieurs langues, mais a indiqué à l'AFP qu'il maîtrisait surtout l'anglais et le chinois.

Toutefois, il partage les limites de nombreux agents conversationnels chinois. Lorsqu'il est interrogé sur des sujets sensibles, comme par exemple le président Xi Jinping, il préfère éviter le sujet et propose de "parler d'autre chose".

Malgré cela, ses performances, qu'il s'agisse de rédiger du code complexe ou de résoudre des problèmes mathématiques difficiles, ont surpris les experts.

"Ce que nous avons constaté, c'est que DeepSeek (...) est soit le meilleur, soit au niveau des meilleurs modèles américains", a déclaré Alexandr Wang, PDG de l'entreprise américaine Scale AI, à la télévision CNBC.

Cette réussite est d'autant plus étonnante au vu des moyens utilisés.

Selon un article détaillant son développement, le modèle de DeepSeek n'a été entraîné qu'avec une fraction des puces utilisées par ses concurrents occidentaux .

Spoutnik

Nombre d'analystes pensaient que l'avantage des Etats-Unis en matière de production de puces hautes performances, ainsi que leur capacité à limiter l'accès de la Chine à cette technologie, garantirait leur domination en matière d'IA.

Pourtant, DeepSeek a déclaré n'avoir dépensé que 5,6 millions de dollars pour développer son modèle, une somme dérisoire comparée aux milliards investis par les géants américains.

Les actions de grandes entreprises technologiques aux Etats-Unis et au Japon ont chuté face au défi posé par DeepSeek.

Nvidia, leader mondial des composants et logiciels pour l'IA, a vu son cours baisser de plus de 3% vendredi à Wall Street. Le géant japonais SoftBank, un investisseur clé dans un projet américain de 500 milliards de dollars pour développer des infrastructures en IA, a perdu lundi plus de 8%.

Marc Andreessen, un investisseur et proche conseiller du président américain Donald Trump, a qualifié DeepSeek de tournant "pour l'IA", comme l'était "Spoutnik", en référence au lancement du satellite soviétique qui avait déclenché la course à l'espace durant la Guerre froide.

"DeepSeek R1 est l'une des percées les plus incroyables que j'aie jamais vues", a-t-il écrit sur X.

Open source

Comme ses concurrents occidentaux, tels que ChatGPT, Llama ou Claude, DeepSeek s'appuie sur un grand modèle de langage (LLM), formé à partir d'immenses quantités de textes, pour maîtriser les subtilités du langage naturel.

Mais contrairement à ces rivaux, qui développent des modèles propriétaires, DeepSeek est en code source ouvert ("open source"). Cela signifie que le code de l'application est accessible à tous, permettant de comprendre son fonctionnement et de le modifier.

"Une entreprise non américaine perpétue la mission initiale d'OpenAI -une recherche ouverte et avant-gardiste qui bénéficie à tous", a estimé Jim Fan, responsable de recherche chez Nvidia, sur X.

DeepSeek affirme être "en tête du classement des modèles open source" et rivaliser avec "les modèles propriétaires les plus avancés au monde".

Alexandr Wang de Scale AI a estimé sur X que DeepSeek est "un signal d'alerte pour l'Amérique".

"Grandes choses"

La Chine ambitionne de devenir leader de l'intelligence artificielle d'ici 2030, avec des investissements prévus de plusieurs dizaines de milliards d'euros dans ce domaine au cours des prochaines années.

Le succès de DeepSeek montre que les entreprises chinoises commencent à surmonter les obstacles auxquels elles sont confrontées.

La semaine dernière, le fondateur de DeepSeek, Liang Wenfeng, a assisté à une réunion avec le Premier ministre chinois Li Qiang, soulignant l'ascension rapide de l'entreprise.

Ce succès viral a également propulsé DeepSeek au sommet des sujets tendances sur Weibo, l'équivalent chinois de X.

"Cela montre qu'on peut accomplir de grandes choses avec peu de moyens", a souligné un utilisateur.

https://www.boursorama.com/actualite-ec ... 932b575f80

Silenius · Message par **Silenius** » 28 janv. 2025, 11:09

al2o3 a écrit : ↑
27 janv. 2025, 21:48

Silenius a écrit : ↑
27 janv. 2025, 19:34
DeepSeek avec son "reasonning model" open-source qui n'a pas coute cher a developper coule Nvidia en bourse. Ce modele concurrence o1 de OpenAi. La penurie de gpus performants a force cette entreprise chinoise a faire preuve d'ingeniosite. https://www.youtube.com/watch?v=kxufe-DPPF0
Hello silenus,
Peux tu expliquer un peu? C est quoi le resonning modèle en une ligne, que les milliards de r&d n ont pas vu venir.

Perso j ai rechargé les stocks de tsmc ce matin sur la baisse de 10%, on verra…

Un "reasonning model" , au lieu de repondre directement a un prompt en predisant le mot suivant va examiner la question et derouler un cheminement de pensee, se questionner s'il ne se trompe pas, etc, et a la fin va proposer une reponse coherente avec les etapes precedente. Par exemple, il va bien compter qu'il y a 3 R dans le mot "strawberry" en ecrivant chaque lettre sur une ligne et en incrementant un compteur.
Pour o1 d'openai tout le raisonnement ne serait pas affiche (ils ont surement peur que ces donnees servent a entrainer d'autres modeles concurents...), mais R1 de DeepSeek affiche tout.

Silenius · Message par **Silenius** » 28 janv. 2025, 13:34

LeLama a écrit : ↑
27 janv. 2025, 22:29

Silenius a écrit : ↑
27 janv. 2025, 19:34
DeepSeek avec son "reasonning model" open-source qui n'a pas coute cher a developper coule Nvidia en bourse. Ce modele concurrence o1 de OpenAi. La penurie de gpus performants a force cette entreprise chinoise a faire preuve d'ingeniosite. https://www.youtube.com/watch?v=kxufe-DPPF0
J'ai qq questions, peut etre sais tu repondre.

-1) Combien pese le code source ? Je crois comprendre que ce n'est pas lourd et que la difficulte' est d'estimer les parametres pour faire tourner le code.

-2) Si j'installe DeepSeek sur ma machine ( j'ai vu que c'est open-source, installable sur linux), j'ai la version complete ou bien est ce que faire tourner une version performante demande de gros serveurs de donnees ? Ici aussi, j'ai l'impression que c'est le calcul des parametres en amont qui est difficile, mais qu'ensuite on a un LLM de haut niveau sur une machine assez standard.

1- Le code source d'inference lui-meme ne pese rien du tout, c'est 200 lignes de python qui utilisent des librairies comme Transformers de HuggingFace. L'essentiel du modele c'est les poids synaptiques, dont la taille est variable selon le nombre de parametres et le nombre de bits d'encodage. Lors de l'entrainement, le modeles sont en 16-bit floating-point precision (FP16) ou 32-bit floating-point precision (FP32), mais ils sont souvent quantises sur un nombre de bits inferieurs (8, 4 voir 1,5 bits) pour necessiter moins de ressources lors de l'inference (prompting par l'utilisateur) sans trop perdre en precision. Par ex un modele 7B (7 milliards de parametres) en 8 bits pese 6.51 GB donc il tient sur une carte graphique avec 8 GB de VRAM. On peut faire tourner certains modeles sur CPU et RAM avec Llama.cpp mais c'est beaucoup plus lent.
2- tu peux telecharger tous les modeles de 1,5B a 670B mais les petits sont des versions quantisees basees sur de petits Llama ou Qwen, les resultats sont assez mitiges, mais a partir de 32B c'est tres bon. https://github.com/deepseek-ai/DeepSeek-R1
ce gars fait tourner la version 671B sur un serveur dans son garage avec 1500 GB de ram sur vieux cpu Intel Xeon qui doit couter 1500-2000 euros, il faut plus d'une heure pour la reponse : https://www.youtube.com/watch?v=yFKOOK6qqT8

-installer et utiliser localement R1 distill (petit modele entraine avec les reponses du gros modele) avec LM studio : https://www.youtube.com/watch?v=hruG-JlLeQg
-Deepseek R1 Locally: Ollama + Open WebUI https://www.youtube.com/watch?v=hAqBEm4wRsk
Il faudrait au moins avoir une carte Nvidia avec 24 GB de VRAM.

yvesT · Message par **yvesT** » 28 janv. 2025, 14:18

LeLama a écrit : ↑
06 janv. 2025, 23:04

energy_isere a écrit : ↑
06 janv. 2025, 22:35

LeLama a écrit : ↑
06 janv. 2025, 22:14
J'ajoute que je ne comprends pas du tout qui concoit ces sites bidons ni pourquoi. Il n'y a rien a vendre. Ca coute un peu d'argent, meme si c'est tout automatisé ( achat de nom de domaine, qq programmeurs pour ecrire les scripts...). Il y a donc qqun qui a un objectif s'il met de l'argent. Qui sont ces gens ? Quel est leur objectif ? Je ne vois pas.
de la pub déguisée pour le magasin Bleu des Vosges. https://le-periscope.info/le-journal/co ... e-textile/
Merci.
Je ne crois pas que ce soit la bonne explication. Le premier article du site bleudesmachins... présente le meilleur moyen de gagner au casino en ligne. Clairement c'est un site hyperdegueu racoleur qui est contreproductif pour l'image de l'enseigne qui vend du tissu. Pour la pub, le magasin pourrait mettre en ligne une simple photo de la boutique et l'adresse, ce serait moins compliqué et plus efficace que ce site degueu qui ne donne pas l'adresse de la boutique et ne parle pas de ses produits !

Il y a en fait pas mal de sites qui ne sont pas maintenus, qui n'achetent plus leur nom de domaine et le laissent a l'abandon. Ce nom de domaine est récupéré par des gens qui vendent du sexe, du jeu, etc... Et maintenant par des sites qui sont remplis avec de l'ia sans rien vendre. Ca a l'air typiquement le cas du site sus-mentionne'.

Il n'y a pas que les sites, Amazon a un problème avec les bouquins générés par IA, et a limité le nombre de bouquin permis à 3 par auteur et par jour :
https://www.lemonde.fr/economie/article ... _3234.html

al2o3 · Message par **al2o3** » 28 janv. 2025, 18:27

Silenius a écrit : ↑
28 janv. 2025, 13:34

LeLama a écrit : ↑
27 janv. 2025, 22:29

Silenius a écrit : ↑
27 janv. 2025, 19:34
DeepSeek avec son "reasonning model" open-source qui n'a pas coute cher a developper coule Nvidia en bourse. Ce modele concurrence o1 de OpenAi. La penurie de gpus performants a force cette entreprise chinoise a faire preuve d'ingeniosite. https://www.youtube.com/watch?v=kxufe-DPPF0
J'ai qq questions, peut etre sais tu repondre.

-1) Combien pese le code source ? Je crois comprendre que ce n'est pas lourd et que la difficulte' est d'estimer les parametres pour faire tourner le code.

-2) Si j'installe DeepSeek sur ma machine ( j'ai vu que c'est open-source, installable sur linux), j'ai la version complete ou bien est ce que faire tourner une version performante demande de gros serveurs de donnees ? Ici aussi, j'ai l'impression que c'est le calcul des parametres en amont qui est difficile, mais qu'ensuite on a un LLM de haut niveau sur une machine assez standard.
1- Le code source d'inference lui-meme ne pese rien du tout, c'est 200 lignes de python qui utilisent des librairies comme Transformers de HuggingFace. L'essentiel du modele c'est les poids synaptiques, dont la taille est variable selon le nombre de parametres et le nombre de bits d'encodage. Lors de l'entrainement, le modeles sont en 16-bit floating-point precision (FP16) ou 32-bit floating-point precision (FP32), mais ils sont souvent quantises sur un nombre de bits inferieurs (8, 4 voir 1,5 bits) pour necessiter moins de ressources lors de l'inference (prompting par l'utilisateur) sans trop perdre en precision. Par ex un modele 7B (7 milliards de parametres) en 8 bits pese 6.51 GB donc il tient sur une carte graphique avec 8 GB de VRAM. On peut faire tourner certains modeles sur CPU et RAM avec Llama.cpp mais c'est beaucoup plus lent.
2- tu peux telecharger tous les modeles de 1,5B a 670B mais les petits sont des versions quantisees basees sur de petits Llama ou Qwen, les resultats sont assez mitiges, mais a partir de 32B c'est tres bon. https://github.com/deepseek-ai/DeepSeek-R1
ce gars fait tourner la version 671B sur un serveur dans son garage avec 1500 GB de ram sur vieux cpu Intel Xeon qui doit couter 1500-2000 euros, il faut plus d'une heure pour la reponse : https://www.youtube.com/watch?v=yFKOOK6qqT8

-installer et utiliser localement R1 distill (petit modele entraine avec les reponses du gros modele) avec LM studio : https://www.youtube.com/watch?v=hruG-JlLeQg
-Deepseek R1 Locally: Ollama + Open WebUI https://www.youtube.com/watch?v=hAqBEm4wRsk
Il faudrait au moins avoir une carte Nvidia avec 24 GB de VRAM.

Merci pour l éclairage, j en déduit qu il n y a pas une augmentation de l efficacité, mais plutôt une avancée dans le mimétisme des autres ai.

Silenius · Message par **Silenius** » 28 janv. 2025, 20:07

Et c'est aussi sous licence MIT qui est une des plus permissive, elle permet une utilisation commerciale.

kercoz · Message par **kercoz** » 28 janv. 2025, 23:02

https://www.mediapart.fr/journal/intern ... etats-unis

.......Source ouverte

De plus, tout est accessible, car DeepSeek se développe en source ouverte (ou open source), contrairement aux pratiques des entreprises états-uniennes, qui préfèrent garder leurs avancées secrètes. D’ailleurs, les ingénieur·es de DeepSeek semblent éprouver un certain plaisir à le partager avec le reste du monde, relève Kevin Xu, fondateur du site spécialisé Interconnected. « La plupart des ingénieurs [chinois] sont ravis si leurs projets open source sont utilisés par une entreprise étrangère, en particulier une entreprise de la Silicon Valley », écrit-il, évoquant un « zèle de l’open source ».

Cela « s’accompagne implicitement d’une conscience aiguë du fait que personne en Occident ne respecte ce qu’ils font, au motif que tout ce qui se fait en Chine est volé ou créé par tricherie. Ils sont également conscients que les entreprises chinoises ont pris gratuitement beaucoup de technologies open source pour progresser, mais ils veulent créer les leurs, contribuer et prouver que leur technologie est suffisamment bonne pour être prise gratuitement par les entreprises étrangères – un peu de nationalisme, un peu de fierté d’ingénieur. Si vous voulez vraiment comprendre pourquoi DeepSeek fait ce qu’il fait et met tout en open source, commencez par là ».

Mardi, des médias chinois se réjouissaient de la réussite de DeepSeek. « La Silicon Valley sous le choc ! L’IA chinoise domine les médias étrangers ; selon les experts en IA, “elle a rattrapé les États-Unis” », s’enflamme mardi le National Business Daily (NBD). L’une des figures de la tech chinoise, Feng Ji, fondateur du studio qui a créé le jeu vidéo populaire Black Myth: Wukong, a évoqué de son côté « une réalisation scientifique et technologique qui façonne [le] destin national [de la Chine] ».

Pour faire face à la menace, certain·es en Occident mettent déjà en avant les questions de censure et de sécurité. Ainsi, mardi, le ministre australien de l’industrie et des sciences Ed Husic a invité les utilisateurs à être « très prudents ». Mais, font remarquer des expert·es, dans la mesure où DeepSeek met à disposition ses découvertes publiquement, n’importe quelle société dans le monde entier peut s’approprier ces technologies et en faire ce qu’elle veut. Tout en échappant au contrôle du Parti communiste chinois (PCC)............

LeLama · Message par **LeLama** » 29 janv. 2025, 15:45

Il faut ajouter qu'il y a une culture de la copie des maitres en chine. La societe' chinoise est tres hierarchique, on peut relire confucius, et l'obeissance aux maitres qu'on doit imiter est la base. En caricaturant, chez nous, "copier" c'est pas bien, tandis que dans la culture chinoise, "copier", c'est bien.

De fait, la propriete' intellectuelle n'est pas trop dans leur culture. En tout cas, sur l'electronique, quand on achete un produit europeen multimedia, ya souvent plein de bridages ( zonages, drm...) tandis que les produits chinois sont moins brid'es et moins chers.

nemo · Message par **nemo** » 29 janv. 2025, 16:12

LeLama a écrit : ↑
29 janv. 2025, 15:45
Il faut ajouter qu'il y a une culture de la copie des maitres en chine. La societe' chinoise est tres hierarchique, on peut relire confucius, et l'obeissance aux maitres qu'on doit imiter est la base. En caricaturant, chez nous, "copier" c'est pas bien, tandis que dans la culture chinoise, "copier", c'est bien.

De fait, la propriete' intellectuelle n'est pas trop dans leur culture. En tout cas, sur l'electronique, quand on achete un produit europeen multimedia, ya souvent plein de bridages ( zonages, drm...) tandis que les produits chinois sont moins brid'es et moins chers.

C'est la mentalité traditionnelle pas seulement chinoise : tout ce qui a de la valeur et mérite d'être dit et fait l'a déjà été par les "modèles"/"archétype"/"pieux prédécesseurs" qui sont venu avant nous et dont il faut s'inspirer. L'innovation était et reste chez certain fondamentaliste une insulte jusque relativement récemment en occident je crois qu'il faut attendre le 18mée pour que l'idée qu'innover est positif commence et cette mentalité n'a vraiment triompher qu'au 20éme siècle. Bien sur hors de l'occident cela est encore plus tardif.
Je me souviens d'un article de René Girard sur le sujet et l'origine du mot avec lequel pour une fois j'étais complétement d'accord.

supert · Message par **supert** » 29 janv. 2025, 16:53

les produits chinois sont moins bridés

m'a fait rire celle-là !

Supertomate qui est pour l'humour débridé.

Message par **energy_isere** » 29 janv. 2025, 19:39

DeepSeek, l’appli conversationnelle chinoise qui bouscule les géants de l'IA... et de l'énergie

A peine lancé, le robot conversationnel chinois R1 de DeepSeek a bouleversé l’écosystème IA en devenant dès son lancement l’application gratuite la plus téléchargée sur l'App Store américain d'Apple, devant l'application d'OpenAI ChatGPT. Sa consommation d’énergie réduite et le fait qu’il soit disponible gratuitement et en open source ouvrent des perspectives inédites aux entreprises, tout en questionnant la course au gigantisme des modèles actuels.

Pauline Bandelier 29 janvier 2025

Moins d'une semaine après son lancement, le robot conversationnel de l'entreprise chinoise Deepseek est devenu l’application gratuite la plus téléchargée sur l'App Store américain d'Apple, devant ChatGPT.

De la contrainte naît la créativité. Une maxime que pourrait faire sienne la Chine. Confronté depuis deux ans aux sanctions américaines sur la vente de puces les plus avancées destinées à l’intelligence artificielle, le pays vient de réaliser une prouesse technique avec le robot conversationnel lancé par l’entreprise DeepSeek. Le fondateur de la start-up basée à Hangzhou, Liang Wengfeng, n’aurait en effet dépensé que 5,6 millions de dollars pour développer son robot conversationnel R1, une somme dérisoire par rapport aux milliards investis par les géants de la tech américains.
... abonnés

https://www.usinenouvelle.com/editorial ... e.N2226416

kercoz · Message par **kercoz** » 29 janv. 2025, 19:58

"""Liang Wenfeng s’est aussi appuyé sur des talents locaux pour développer son modèle de langage. "Contrairement à tant d’autres sociétés chinoises de ce secteur qui tentent de débaucher des experts à l’étranger, DeepSeek se concentre sur des jeunes ingénieurs qui viennent de sortir des universités chinoises", précise Guangyu Qiao-Franco.

Conclusion de cet effort "made in China" : R1 "arrive juste derrière Gemini 2.0 Flash Thinking (Google), le modèle o1 d’OpenAI et Claude d’Anthropic dans le test que nous avons mis au point", note Mario Krenn, directeur de recherche à l’Artificial Scientist Lab de l’Institut Max Planck en Allemagne.

Autrement dit, le nouveau venu chinois n’égale pas encore les "formule 1" nord-américaines, mais il les talonne. R1 est en effet comparé à des chatbots dernier cri, pensés pour les professionnels et plus perfectionnés que les GPT et autres modèles de langage disponibles gratuitement ou à peu de frais.""""""""""

Message par **energy_isere** » 29 janv. 2025, 20:40

Mais si une startup en Chine arrive à faire cette économie de moyens, qu'est ce qui va empêcher les tazus d'essayer de faire pareil ?

Savoir qu'une chose est possible est un super moyen de motiver les troupes. Je serais pas étonné que à l'été OpenAi progresse dans le même sens que cette équipe Chinoise.
Qu'en pensez vous ?

oleocene.org

ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM

Re: ChatGPT et autres LLM