DeepSeek给AI装了根赛博手指,于是它能看见了

marsbitPublié le 2026-05-01Dernière mise à jour le 2026-05-01

文 | 字母AI

五一假期前一天,DeepSeek突然扔出来一份视觉多模态技术报告。

点开之前,我心里大概是有个预期的,无非就是具体能看到多远、看得多清楚。

毕竟过去一年,多模态模型基本都在往这个方向卷。OpenAI讲thinking with images,让模型在推理过程中裁剪、放大、旋转图片;Gemini、Claude也都在想办法让模型处理更高分辨率、更复杂的视觉输入。

大家的共同假设是,只要模型看得更细,视觉推理自然就会更强。

但DeepSeek这份报告看下来,你会发现,他们完全走上了另一条路。

DeepSeek没有把重点放在“让模型看到更多像素”上,他们把注意力放在了一个更底层的问题上。

就算模型已经看清楚了,但是它在推理过程中,你怎么能保证模型和你指的是同一个东西?

其实这是多模态推理里最容易被忽略的死穴。

人类看图时,可以用手指去标记对象。比如“这个人是谁谁谁”、“那个人是谁谁谁”。但模型哪知道你说的这个是哪个?

模型只能用语言说“左边那个”“上面那个”“这条线”。一旦画面复杂起来,语言指代就会漂移,推理也会跟着崩。

于是DeepSeek就说了,那就给模型一根“手指”不就完了?

它把点和边界框变成模型思考时的基本单位,让模型能够一边用这根赛博手指指着对象,一边进行推理。

01 从连续视觉到离散符号

DeepSeek在这份技术报告里,提出了一个很有意思的问题。他们认为,多模态模型真正难的地方,不是看见图像,而是在连续推理过程中稳定地指向同一个视觉对象。

就比如你跟你的朋友说“菜市场里,张老太太的那个摊位卖的菜最新鲜”。但是菜市场里老头老太太多了去了,哪个是张老太太?

但如果你直接用手指着说“就是那个”,你朋友就会马上明白。

DeepSeek将这个问题命名为“引用鸿沟”(Reference Gap)。

过去一年,几乎所有前沿多模态模型都在解决“感知鸿沟”(Perception Gap)这个问题。

假如说有一张照片放在你面前,如果照片太模糊、分辨率太低,你可能看不清楚里面的小字或者远处的细节。AI也一样,如果输入的图像质量不够、处理方式不对,它就会“看不清”,这就是感知鸿沟。

GPT、Claude、Gemini这些模型不断提高分辨率,引入高分辨率裁剪、动态分块、多尺度处理,目的就是让模型能看到更多细节。

这个方向当然有价值,但DeepSeek在报告里指出,就算模型看得再清楚,在复杂的空间推理任务上,仍然会出现逻辑崩溃。

问题出在自然语言本身。

照片里有十几只狗,你说“左边那只狗”,那模型就没办法理解你说的具体是哪只。

还有更绝的,如果你让模型数一下照片里狗的数量,那么模型在推理过程中很容易就搞不清楚自己已经数过哪些、还有哪些没数。

报告中还提到了迷宫导航这样极端的情况,纯语言根本无法准确描述不规则形状的路径和复杂的拓扑关系。

语言作为一种指代工具,在连续的视觉空间里天生就是模糊的。它擅长抽象概念和因果关系,但在空间定位和拓扑关系上,语言的表达能力存在根本性的局限。

可DeepSeek本身就是个通用的语言模型,那应该怎样解决呢?

于是就有了文章开头提到的这根“手指”。

他们提出的核心概念是“视觉基元”(Visual Primitives),具体来说就是把边界框(bounding boxes)和点(points)这两种计算机视觉里最基础的空间标记,提升为“思维的最小单位”。

以前的多模态模型虽然也能画框标注物体,但只是在最后给你看个结果,证明“我找到了”。就像考试时,你只交答案,不写解题过程。

也有一些研究让AI在思考过程中画框,但目的只是为了“看得更准”,框框只是个辅助工具。就好比你做数学题时用草稿纸,草稿纸只是帮你算得更清楚,不是解题思路的一部分。

DeepSeek要做的完全不同。

他们把这些空间标记直接嵌入到模型的推理过程中,让它们成为推理的有机组成部分。模型在思考的时候,不只是用语言描述“我看到了一只狗”,还同时输出“我看到了一只狗,它在这里:[[x1,y1,x2,y2]]”。

这个机制被DeepSeek称为“边推理边指向”(point while it reasons)。

模型的每一步思考都锚定在图像的具体坐标上。

技术报告里就给了这样一个例子:模型从起点出发,一路探索、回溯、再尝试,最后输出了一串完整的坐标路径,每个坐标都对应迷宫里走过的一个点。

这样一来,模型就不会在推理过程中“迷路”。它不会搞不清楚自己在说什么、指什么。每个视觉对象都有了明确的空间锚点,推理过程变得可追踪、可验证。

这条技术路线和OpenAI的方向形成了有趣的对比。

OpenAI在o3和o4-mini的官方介绍里明确提到了“thinking with images”的概念,即模型可以把图像纳入推理链,并通过裁剪、放大、旋转等方式处理图像。这个方向的重点是让图像本身成为思维链的一部分,模型可以在推理过程中生成新的图像、修改图像、对图像进行操作。

OpenAI的路线强调的是通用能力,视觉、代码、搜索、文件、工具调用一起协作。模型拥有一个强大的“视觉工作台”,可以灵活地处理各种视觉任务。

DeepSeek的路线则更“符号化”一点。它让坐标进入思维链。模型在推理文本里显式写出边界框和点的坐标,把视觉对象变成推理时可复用的锚点。

这就导致,OpenAI的视觉推理发生在内部,用户只能看到最终答案和必要解释,中间的视觉处理过程是黑箱。DeepSeek则故意把中间视觉锚点显式化,让推理过程完全透明。

DeepSeek这样做,好处是推理过程更容易被训练、检查和打分。这也让它更容易设计格式、质量和任务级奖励。尤其在迷宫、路径追踪这类任务中,可以对路径合法性、轨迹覆盖度等给出更细的反馈。

模型不只是学会输出正确答案,更是学会了用视觉基元进行推理的方法。

02 效率才是核心

DeepSeek这份报告里有一个很容易被忽略但极其重要的细节,他们的模型在处理图像时,用的token数量远远少于其他前沿模型。

报告里有一张对比图,展示了不同模型处理一张800×800分辨率图像时消耗的token数量。

Gemini-3-Flash约1100个,Claude-Sonnet-4.6约870个,GPT-5.4约740个,Qwen3-VL约660个,DeepSeek约361个,并在KV缓存里只保留约90个条目。

这个差距不是一点点。DeepSeek用的token数量只有Gemini的3分之1,KV缓存条目更是只有10分之1左右。

这种极致的效率是怎么实现的?

DeepSeek用了一个叫“压缩稀疏注意力”(Compressed Sparse Attention, CSA)的机制。

你可以这样理解,假如说你给朋友看一张全家福,你不会说“从左数第237个像素开始有一块红色区域……”,你会直接说“左边是我妈,右边是我爸”。

DeepSeek-ViT先把图像压成更少的视觉token,CSA再把这些视觉token在KV缓存中的表示进一步压缩。

这个机制在DeepSeek-V4-Flash模型上就使用过,现在被应用到了视觉多模态之中。

具体的压缩流程是这样的。一张756×756的图像,包含571536个像素。这些像素首先经过ViT处理,以14×14的patch size切分,生成2916个patch token。然后进行3×3的空间压缩,把每9个相邻的token沿着通道维度压缩成1个,变成324个视觉token。

这324个token进入大语言模型进行预填充。最后,CSA机制会把这些视觉token在KV缓存里再压缩4倍,最终只保留81个条目。

从571536个像素到81个KV缓存条目,整个压缩比达到了7056倍。

一般AI大厂都是在用暴力方法去堆计算资源,而DeepSeek则是在信息论层面去做取舍,只留下最直观易懂的信息。

其最直接的结果,就是推理速度变快了许多。

图像token数量直接影响模型的推理延迟。在自回归生成过程中,每生成一个新token,模型都需要对之前所有token的KV缓存进行注意力计算。如果图像占用了1000个token,那么每次生成都要对这1000个token做注意力。如果只占用90个,计算量就大幅减少。

对于需要实时响应的应用场景,比如机器人视觉、自动驾驶、实时视频分析,推理速度的提升起到了决定性作用。

然后它内存占用得也少。

KV缓存是大模型推理的内存瓶颈。特别是在处理长上下文或批量推理的时候,KV缓存会占用大量显存。DeepSeek把视觉token的KV缓存压缩到90个条目,意味着可以在同样的硬件上处理更多图像,或者处理更长的多轮对话。

这对于实际部署非常重要。很多公司的多模态模型在实验室里表现很好,但一到实际部署就遇到成本问题。每张图片消耗的token越多,推理成本就越高,可支持的并发用户就越少。DeepSeek的效率优势在规模化部署时会被放大。

同时也变相提高了模型的上下文容量。

如果一张图片要占用1000个token,那么在一个128k的上下文窗口里,只能放100多张图片。如果只占用300个token,就可以放400多张。这对于需要处理多图对话、长视频分析、大量文档理解的场景至关重要。

DeepSeek的模型可以在一个对话里处理更多图像,可以对比分析几十张甚至上百张图片,可以追踪视频里的长期变化。

最关键的是训练成本。

虽然报告主要讲推理效率,但这种压缩机制在训练阶段同样有效。更少的视觉token意味着更小的计算图,更快的训练速度,更低的硬件要求。

DeepSeek一直以“用更少资源做出更好效果”著称。从R1的强化学习训练,到V4的MoE架构,再到现在的视觉多模态,这种效率优先的哲学贯穿始终。

但这里有一个关键问题。压缩会不会损失信息?

DeepSeek并没有否认压缩会带来信息损失。它的主张是,在这组空间推理和计数任务上,压缩后的表征仍然足够有效。

每一步压缩都在保留对推理最重要的信息,丢弃冗余和噪声。

其实前面提到的DeepSeek的视觉基元机制,它本身也是一种信息压缩。一个边界框用4个数字就能精确定位一个物体,一个点用2个数字就能标记一个位置。这些离散符号携带的信息密度远高于原始像素。

从实验结果看,这种压缩没有损害性能,反而在某些任务上带来了提升。

这说明对于很多视觉推理任务,瓶颈不在于看得不够清楚,而在于没有找到合适的表征方式。

这种效率优势还证明了多模态智能不一定需要更大的模型、更多的算力、更高的成本。

从DeepSeek时刻诞生至今,这家公司一直有一条暗线,“真正的智能不在于算力,而在于对问题本质的理解”。

当你真正理解了视觉推理需要什么,你就不需要那么多token。当你找到了合适的表征方式,你就不需要那么大的模型。

从这个角度看,DeepSeek的极致效率不是目的,而是副产品。真正的目的是找到视觉推理的正确范式。效率只是证明了这个范式是对的。

03 未竟之事

DeepSeek在报告的局限性部分,坦诚地列出了当前方法存在的几个问题。这些问题不是技术细节上的小瑕疵,而是指向了视觉推理的下一个阶段。

第一个问题是触发词依赖。

报告里明确说,当前的“用视觉基元思考”能力需要显式的触发词(explicit trigger words)才能激活。也就是说,模型还不能自然、自主地决定“什么时候该画框、打点”。

它意味着模型还没有真正学会判断什么时候需要使用视觉基元,什么时候用语言就够了。

理想的情况是,模型应该能根据任务的性质自主决策。但当用户问“数一数图里有几只狗”的时候,模型应该自动切换到视觉基元模式,用边界框来辅助计数。

从技术上说,这需要在模型里建立一个元认知层。这个元认知层可以评估当前任务的复杂度,判断纯语言推理是否足够,决定是否需要调用视觉基元。

DeepSeek目前还没有实现这个元认知层,但他们已经明确了方向。未来的版本可能会让模型学会自主决定推理策略,而不是依赖外部触发。

第二个问题是分辨率限制。

报告提到,受输入分辨率限制,模型在细粒度场景下的表现还不够好,输出的视觉基元有时不够精确。

这个问题和DeepSeek的效率优先策略有关。为了控制token数量,他们限制了视觉token的范围在81到384之间。对于超出这个范围的图像,会进行缩放处理。

这种设计在大部分场景下是合理的,但在一些需要极高精度的任务上就会遇到瓶颈。比如医疗影像分析需要识别微小的病灶,工业质检需要发现细微的瑕疵,这些场景对分辨率的要求很高。

DeepSeek在报告里提到,这个问题可以通过整合现有的高分辨率方法来解决。也就是说,他们的视觉基元框架和传统的高分辨率裁剪方法不是对立的,而是互补的。

我觉得DeepSeek可以出个混合方案。

具体就是对于大部分常规任务,使用压缩的视觉表征和视觉基元推理,保持高效率。对于需要细粒度分析的局部区域,动态调用高分辨率裁剪,提取更详细的视觉信息。这样既保持了整体效率,又满足了局部精度需求。

这种混合方案的关键是让模型学会判断哪些区域需要高分辨率处理。于是这就又回到了刚才元认知的问题上。

第三个问题是跨场景泛化。

报告提到,用点作为视觉基元来解决复杂拓扑推理问题仍然很难,模型的跨场景泛化能力有限。

这个问题在迷宫导航和路径追踪任务上表现得比较明显。虽然DeepSeek在自己构建的测试集上达到了66.9%和56.7%的准确率,超过了其他模型,但这个数字本身还不够。

更重要的是,这些任务都是在合成数据上训练和测试的。迷宫是用算法生成的,路径追踪的曲线也是程序化绘制的。当模型遇到真实世界里的拓扑推理问题时,比如在真实地图上规划路径,在复杂管线图里追踪连接关系,表现可能会下降。

DeepSeek的方法是通过大规模、高多样性的数据来提升泛化能力。他们爬取了97984个数据源,经过严格过滤后保留了31701个,最终得到超过4000万个样本。在迷宫和路径追踪任务上,他们也设计了多种拓扑结构、视觉风格、难度等级,试图覆盖尽可能多的变化。

然而数据多样性只是泛化能力的一部分。模型是否真正理解了拓扑推理的本质?还是说它只是记住了训练数据里的模式而已?

另外,DeepSeek的视觉基元是一套新的表征系统,需要专门的数据格式、训练流程、评估方法。这和现有的多模态生态不完全兼容。

大部分多模态数据集和评测基准都是基于传统的“图像+文本”范式设计的,没有考虑视觉基元。如果要在这些基准上评测DeepSeek的模型,要么需要关闭视觉基元功能,要么需要重新设计评测方法。

其他研究者如果想复现或改进这个工作,需要重新构建整个数据和训练流程,门槛比较高。

DeepSeek能在报告中谈及这些问题,说明他们对自己的工作有清醒的认识。

这可能比给出完美答案更有价值。因为真正推动社会进步的,往往不是答案,而是问题。

Cryptos en tendance

Lectures associées

Compte à rebours pour GPT-5.6 : Abandonnez l'illusion d'une API unique, même une évolution rapide du calcul ne résiste pas à une simple réglementation

Mi-juin 2026, trois événements majeurs (la restriction d'accès de Fable 5, l'open-sourcing de GLM-5.2, l'annonce imminente de GPT-5.6) marquent un tournant pour l'industrie de l'IA. La logique sous-jacente de la chaîne d'approvisionnement des grands modèles se réorganise. La disponibilité et la conformité surpassent désormais la simple avancée technique. Le cas de Fable 5, limité aux seuls citoyens américains pour des raisons de contrôle à l'export, prouve qu'une capacité technique de pointe peut être rendue inaccessible par la réglementation. En parallèle, le modèle open-source GLM-5.2 démontre des performances proches des leaders tout en réduisant drastiquement les coûts, offrant une alternative viable et stable pour les entreprises, notamment face aux risques géopolitiques. En réponse, les géants du modèle fermé comme OpenAI recentrent leurs efforts. Les fuites sur GPT-5.6 suggèrent un virage stratégique vers l'intelligence spatiale et les « modèles du monde », des domaines nécessitant d'immenses ressources en calcul, pour tenter de recréer un écart de génération dans des applications comme la simulation industrielle ou la robotique. La conclusion est claire : pour les développeurs d'applications, dépendre exclusivement d'une API propriétaire unique expose à des risques incontrôlables. Concevoir des architectures « agnostiques » au modèle, permettant de basculer rapidement entre solutions fermées et open-source locales, devient une condition essentielle à la continuité des activités. L'ère du choix unique basé uniquement sur la performance technique est révolue.

marsbitIl y a 2 h

Compte à rebours pour GPT-5.6 : Abandonnez l'illusion d'une API unique, même une évolution rapide du calcul ne résiste pas à une simple réglementation

marsbitIl y a 2 h

La « guerre des subventions de tokens » des géants de l'IA touche-t-elle à sa fin ?

Les grands acteurs de l'IA mènent une guerre des prix sur les tokens, en subventionnant massivement leurs utilisateurs. Des analyses montrent que, dans certains abonnements premium, la valeur réelle des tokens consommés peut être jusqu'à 70 fois supérieure au prix payé. Contrairement aux guerres de subventions de l'ère Internet (comme Uber ou Meituan), les tokens d'IA créent peu d'effet de verrouillage : les utilisateurs peuvent changer de fournisseur facilement, car l'API est standardisée. Cette guerre est structurellement déséquilibrée. Des géants comme Google, financés par d'autres activités lucratives (publicité), peuvent se permettre de baisser radicalement les prix pour concurrencer des sociétés comme OpenAI et Anthropic, qui dépendent fortement des financements des investisseurs. Bill Maris, fondateur de Google Ventures, estime qu'une baisse de 80% du prix des tokens par Google est inévitable et constituerait une arme redoutable. À long terme, deux scénarios sont possibles : soit un modèle de type "service Internet" avec monopolisation et hausse des prix ultérieure, soit un modèle de type "infrastructure de base" (eau, électricité) où les tokens deviennent une commodité standardisée, avec des marges tendant vers zéro. L'absence d'effet de verrouillage fort penche en faveur du second scénario. La compétition pourrait alors devenir un "jeu infini", où l'objectif n'est pas d'éliminer l'adversaire mais de rester à table, accélérant ainsi l'adoption et le développement de l'IA comme une utilité publique. Pour les utilisateurs, cette guerre des subventions signifie, pour l'instant, un accès à une puissance de calcul à un prix très avantageux.

marsbitIl y a 2 h

La « guerre des subventions de tokens » des géants de l'IA touche-t-elle à sa fin ?

marsbitIl y a 2 h

En dehors du terrain : le jeu spéculatif autour de la Coupe du Monde

Le tournoi de la Coupe du Monde dépasse largement le cadre sportif pour devenir un immense terrain de jeu spéculatif mondial. L'article explore comment l'événement concentre, sur un mois, un écosystème de paris et d'opportunités financières. Il passe en revue plusieurs domaines clés : Le marché des prédictions (Polymarket, Kalshi) connaît une croissance fulgurante, dépassant parfois en popularité les applications de pari traditionnelles, avec des histoires de gains et pertes spectaculaires captant l'attention. Les paris sportifs légaux restent cependant le pilier principal, avec des sommes énormes engagées, surtout si l'équipe nationale locale performe. Les marchés boursiers ne sont pas en reste, avec l'apparition d'« actions concept » liées à la consommation des fans (nourriture, bière, équipement) dont les cours fluctuent au gré des résultats des matchs. Le marché secondaire des billets est lui aussi un champ de spéculation intense, où les prix explosent pour les matches très attendus (ex: ceux de Cristiano Ronaldo) ou s'effondrent pour d'autres, avec même des pratiques proches de la vente à découvert. Les objets de collection, comme les autocollants Panini ou les maillots en édition limitée, voient leur valeur monter en flèche sur les plateformes de revente. L'univers des cryptomonnaies génère une frénésie spéculative à haut risque autour de tokens Meme non officiels, souvent liés à des équipes ou des joueurs, conduisant à des hausses vertigineuses suivies de chutes brutales. Enfin, une couche d'opportunités émerge en fournissant des informations et des outils aux spéculateurs eux-mêmes : sites de suivi des prix des billets, services d'alerte ou groupes payants de conseils de paris. Le véritable gagnant n'est pas nécessairement celui qui prédit le vainqueur, mais celui qui comprend et exploite les flux d'attention et de demande générés par le tournoi. Après le coup de sifflet final, un vaste réseau de transactions, hors du terrain, a déjà réglé ses comptes sur les marchés globaux.

marsbitIl y a 3 h

En dehors du terrain : le jeu spéculatif autour de la Coupe du Monde

marsbitIl y a 3 h

Comment Codex utilise-t-il l'ordinateur ? Trois points d'entrée et les limites d'autorisation

L'article présente les trois méthodes utilisées par Codex pour interagir avec un ordinateur : Computer Use, l'extension Chrome et le navigateur intégré à l'application. Chaque méthode correspond à des scénarios, des périmètres d'autorisation et des niveaux de confiance distincts. Computer Use offre la couverture la plus large, permettant de contrôler les applications natives macOS/Windows, les paramètres système et même de gérer des flux de travail multi-applications via l'interface graphique. Il est adapté aux processus sans API, mais est plus lent et a le périmètre de confiance le plus large. L'extension Chrome donne accès à l'état de connexion, aux cookies et aux onglets du navigateur, idéale pour les tâches liées à Gmail, LinkedIn, Salesforce ou pour des recherches nécessitant une authentification. Le navigateur intégré est isolé, sans état de connexion, et convient parfaitement au développement et au débogage web local (serveurs locaux, bugs visuels, maquettes). Le principe fondamental est de choisir l'interface la plus étroite, sécurisée et structurée possible pour une tâche donnée. Il faut privilégier les plugins ou MCP, utiliser le navigateur intégré pour le développement web, recourir à l'extension Chrome lorsque l'identité de l'utilisateur est requise, et ne recourir à Computer Use qu'en dernier recours pour les tâches GUI non couvertes par des outils structurés. Appshots est présenté comme un outil complémentaire permettant de "montrer" le contexte de l'écran à Codex pour l'input, tandis que les trois autres méthodes concernent l'action (output). Cette approche stratifiée illustre la clé de la productisation des agents IA : restreindre les permissions, clarifier les frontières et laisser à l'utilisateur le contrôle des actions critiques.

marsbitIl y a 4 h

Comment Codex utilise-t-il l'ordinateur ? Trois points d'entrée et les limites d'autorisation

marsbitIl y a 4 h

Trading

Spot
Futures

Articles tendance

Qu'est ce que GROK AI

Grok AI : Révolutionner la technologie conversationnelle à l'ère du Web3 Introduction Dans le paysage en évolution rapide de l'intelligence artificielle, Grok AI se distingue comme un projet remarquable qui fait le lien entre les domaines de la technologie avancée et de l'interaction utilisateur. Développé par xAI, une entreprise dirigée par l'entrepreneur renommé Elon Musk, Grok AI cherche à redéfinir notre engagement avec l'intelligence artificielle. Alors que le mouvement Web3 continue de prospérer, Grok AI vise à tirer parti de la puissance de l'IA conversationnelle pour répondre à des requêtes complexes, offrant aux utilisateurs une expérience à la fois informative et divertissante. Qu'est-ce que Grok AI ? Grok AI est un chatbot IA conversationnel sophistiqué conçu pour interagir dynamiquement avec les utilisateurs. Contrairement à de nombreux systèmes d'IA traditionnels, Grok AI embrasse une gamme plus large de questions, y compris celles généralement jugées inappropriées ou en dehors des réponses standard. Les objectifs principaux du projet incluent : Raisonnement fiable : Grok AI met l'accent sur le raisonnement de bon sens pour fournir des réponses logiques basées sur une compréhension contextuelle. Surveillance évolutive : L'intégration de l'assistance par outils garantit que les interactions des utilisateurs sont à la fois surveillées et optimisées pour la qualité. Vérification formelle : La sécurité est primordiale ; Grok AI intègre des méthodes de vérification formelle pour améliorer la fiabilité de ses résultats. Compréhension à long terme : Le modèle IA excelle dans la rétention et le rappel d'une vaste histoire de conversation, facilitant des discussions significatives et conscientes du contexte. Robustesse face aux adversaires : En se concentrant sur l'amélioration de ses défenses contre les entrées manipulées ou malveillantes, Grok AI vise à maintenir l'intégrité des interactions des utilisateurs. En essence, Grok AI n'est pas seulement un dispositif de récupération d'informations ; c'est un partenaire conversationnel immersif qui encourage un dialogue dynamique. Créateur de Grok AI Le cerveau derrière Grok AI n'est autre qu'Elon Musk, une personne synonyme d'innovation dans divers domaines, y compris l'automobile, le voyage spatial et la technologie. Sous l'égide de xAI, une entreprise axée sur l'avancement de la technologie IA de manière bénéfique, la vision de Musk vise à remodeler la compréhension des interactions avec l'IA. Le leadership et l'éthique fondatrice sont profondément influencés par l'engagement de Musk à repousser les limites technologiques. Investisseurs de Grok AI Bien que les détails spécifiques concernant les investisseurs soutenant Grok AI restent limités, il est publiquement reconnu que xAI, l'incubateur du projet, est fondé et soutenu principalement par Elon Musk lui-même. Les précédentes entreprises et participations de Musk fournissent un soutien solide, renforçant encore la crédibilité et le potentiel de croissance de Grok AI. Cependant, à l'heure actuelle, les informations concernant d'autres fondations d'investissement ou organisations soutenant Grok AI ne sont pas facilement accessibles, marquant un domaine à explorer potentiellement à l'avenir. Comment fonctionne Grok AI ? Les mécanismes opérationnels de Grok AI sont aussi innovants que son cadre conceptuel. Le projet intègre plusieurs technologies de pointe qui facilitent ses fonctionnalités uniques : Infrastructure robuste : Grok AI est construit en utilisant Kubernetes pour l'orchestration de conteneurs, Rust pour la performance et la sécurité, et JAX pour le calcul numérique haute performance. Ce trio garantit que le chatbot fonctionne efficacement, évolue efficacement et sert les utilisateurs rapidement. Accès aux connaissances en temps réel : L'une des caractéristiques distinctives de Grok AI est sa capacité à puiser dans des données en temps réel via la plateforme X—anciennement connue sous le nom de Twitter. Cette capacité permet à l'IA d'accéder aux dernières informations, lui permettant de fournir des réponses et des recommandations opportunes que d'autres modèles d'IA pourraient manquer. Deux modes d'interaction : Grok AI offre aux utilisateurs un choix entre le « Mode Amusant » et le « Mode Régulier ». Le Mode Amusant permet un style d'interaction plus ludique et humoristique, tandis que le Mode Régulier se concentre sur la fourniture de réponses précises et exactes. Cette polyvalence garantit une expérience sur mesure qui répond à diverses préférences des utilisateurs. En essence, Grok AI marie performance et engagement, créant une expérience à la fois enrichissante et divertissante. Chronologie de Grok AI Le parcours de Grok AI est marqué par des jalons clés qui reflètent ses étapes de développement et de déploiement : Développement initial : La phase fondamentale de Grok AI a eu lieu sur une période d'environ deux mois, au cours de laquelle l'entraînement initial et le réglage du modèle ont été réalisés. Lancement de la version bêta de Grok-2 : Dans une avancée significative, la bêta de Grok-2 a été annoncée. Ce lancement a introduit deux versions du chatbot—Grok-2 et Grok-2 mini—chacune équipée des capacités de discussion, de codage et de raisonnement. Accès public : Après son développement bêta, Grok AI est devenu accessible aux utilisateurs de la plateforme X. Ceux ayant des comptes vérifiés par un numéro de téléphone et actifs depuis au moins sept jours peuvent accéder à une version limitée, rendant la technologie disponible pour un public plus large. Cette chronologie encapsule la croissance systématique de Grok AI depuis sa création jusqu'à son engagement public, soulignant son engagement envers l'amélioration continue et l'interaction utilisateur. Caractéristiques clés de Grok AI Grok AI englobe plusieurs caractéristiques clés qui contribuent à son identité innovante : Intégration des connaissances en temps réel : L'accès à des informations actuelles et pertinentes différencie Grok AI de nombreux modèles statiques, permettant une expérience utilisateur engageante et précise. Styles d'interaction polyvalents : En offrant des modes d'interaction distincts, Grok AI répond à des préférences variées des utilisateurs, invitant à la créativité et à la personnalisation dans la conversation avec l'IA. Infrastructure technologique avancée : L'utilisation de Kubernetes, Rust et JAX fournit au projet un cadre solide pour garantir fiabilité et performance optimale. Considération du discours éthique : L'inclusion d'une fonction de génération d'images met en avant l'esprit innovant du projet. Cependant, elle soulève également des considérations éthiques concernant le droit d'auteur et la représentation respectueuse de figures reconnaissables—une discussion en cours au sein de la communauté IA. Conclusion En tant qu'entité pionnière dans le domaine de l'IA conversationnelle, Grok AI encapsule le potentiel d'expériences utilisateur transformantes à l'ère numérique. Développé par xAI et guidé par l'approche visionnaire d'Elon Musk, Grok AI intègre des connaissances en temps réel avec des capacités d'interaction avancées. Il s'efforce de repousser les limites de ce que l'intelligence artificielle peut accomplir tout en maintenant un accent sur les considérations éthiques et la sécurité des utilisateurs. Grok AI incarne non seulement l'avancement technologique mais aussi un nouveau paradigme de conversation dans le paysage Web3, promettant d'engager les utilisateurs avec à la fois une connaissance experte et une interaction ludique. Alors que le projet continue d'évoluer, il se dresse comme un témoignage de ce que l'intersection de la technologie, de la créativité et de l'interaction humaine peut accomplir.

509 vues totalesPublié le 2024.12.26Mis à jour le 2024.12.26

Qu'est ce que GROK AI

Qu'est ce que ERC AI

Euruka Tech : Un aperçu de $erc ai et de ses ambitions dans le Web3 Introduction Dans le paysage en évolution rapide de la technologie blockchain et des applications décentralisées, de nouveaux projets émergent fréquemment, chacun avec des objectifs et des méthodologies uniques. L'un de ces projets est Euruka Tech, qui opère dans le vaste domaine des cryptomonnaies et du Web3. L'objectif principal d'Euruka Tech, en particulier de son token $erc ai, est de présenter des solutions innovantes conçues pour exploiter les capacités croissantes de la technologie décentralisée. Cet article vise à fournir un aperçu complet d'Euruka Tech, une exploration de ses objectifs, de sa fonctionnalité, de l'identité de son créateur, de ses investisseurs potentiels et de son importance dans le contexte plus large du Web3. Qu'est-ce qu'Euruka Tech, $erc ai ? Euruka Tech est caractérisé comme un projet qui tire parti des outils et des fonctionnalités offerts par l'environnement Web3, en se concentrant sur l'intégration de l'intelligence artificielle dans ses opérations. Bien que les détails spécifiques sur le cadre du projet soient quelque peu évasifs, il est conçu pour améliorer l'engagement des utilisateurs et automatiser les processus dans l'espace crypto. Le projet vise à créer un écosystème décentralisé qui facilite non seulement les transactions, mais qui intègre également des fonctionnalités prédictives grâce à l'intelligence artificielle, d'où la désignation de son token, $erc ai. L'objectif est de fournir une plateforme intuitive qui facilite des interactions plus intelligentes et un traitement efficace des transactions dans la sphère Web3 en pleine expansion. Qui est le créateur d'Euruka Tech, $erc ai ? À l'heure actuelle, les informations concernant le créateur ou l'équipe fondatrice derrière Euruka Tech restent non spécifiées et quelque peu opaques. Cette absence de données soulève des préoccupations, car la connaissance des antécédents de l'équipe est souvent essentielle pour établir la crédibilité dans le secteur de la blockchain. Par conséquent, nous avons classé cette information comme inconnue jusqu'à ce que des détails concrets soient rendus disponibles dans le domaine public. Qui sont les investisseurs d'Euruka Tech, $erc ai ? De même, l'identification des investisseurs ou des organisations de soutien pour le projet Euruka Tech n'est pas facilement fournie par les recherches disponibles. Un aspect crucial pour les parties prenantes potentielles ou les utilisateurs envisageant de s'engager avec Euruka Tech est l'assurance qui découle de partenariats financiers établis ou du soutien d'entreprises d'investissement réputées. Sans divulgations sur les affiliations d'investissement, il est difficile de tirer des conclusions complètes sur la sécurité financière ou la pérennité du projet. Conformément aux informations trouvées, cette section se trouve également au statut de inconnue. Comment fonctionne Euruka Tech, $erc ai ? Malgré le manque de spécifications techniques détaillées pour Euruka Tech, il est essentiel de considérer ses ambitions innovantes. Le projet cherche à exploiter la puissance de calcul de l'intelligence artificielle pour automatiser et améliorer l'expérience utilisateur dans l'environnement des cryptomonnaies. En intégrant l'IA avec la technologie blockchain, Euruka Tech vise à fournir des fonctionnalités telles que des transactions automatisées, des évaluations de risques et des interfaces utilisateur personnalisées. L'essence innovante d'Euruka Tech réside dans son objectif de créer une connexion fluide entre les utilisateurs et les vastes possibilités offertes par les réseaux décentralisés. Grâce à l'utilisation d'algorithmes d'apprentissage automatique et d'IA, il vise à minimiser les défis rencontrés par les utilisateurs pour la première fois et à rationaliser les expériences transactionnelles dans le cadre du Web3. Cette symbiose entre l'IA et la blockchain souligne l'importance du token $erc ai, agissant comme un pont entre les interfaces utilisateur traditionnelles et les capacités avancées des technologies décentralisées. Chronologie d'Euruka Tech, $erc ai Malheureusement, en raison des informations limitées dont nous disposons concernant Euruka Tech, nous ne sommes pas en mesure de présenter une chronologie détaillée des développements majeurs ou des étapes importantes dans le parcours du projet. Cette chronologie, généralement inestimable pour tracer l'évolution d'un projet et comprendre sa trajectoire de croissance, n'est pas actuellement disponible. À mesure que des informations sur des événements notables, des partenariats ou des ajouts fonctionnels deviennent évidentes, des mises à jour amélioreront sûrement la visibilité d'Euruka Tech dans la sphère crypto. Clarification sur d'autres projets “Eureka” Il est à noter que plusieurs projets et entreprises partagent une nomenclature similaire avec “Eureka”. Des recherches ont identifié des initiatives comme un agent IA de NVIDIA Research, qui se concentre sur l'enseignement de tâches complexes aux robots en utilisant des méthodes génératives, ainsi que Eureka Labs et Eureka AI, qui améliorent l'expérience utilisateur dans l'éducation et l'analyse du service client, respectivement. Cependant, ces projets sont distincts d'Euruka Tech et ne doivent pas être confondus avec ses objectifs ou ses fonctionnalités. Conclusion Euruka Tech, aux côtés de son token $erc ai, représente un acteur prometteur mais actuellement obscur dans le paysage du Web3. Bien que les détails concernant son créateur et ses investisseurs restent non divulgués, l'ambition centrale de combiner l'intelligence artificielle avec la technologie blockchain constitue un point d'intérêt focal. Les approches uniques du projet pour favoriser l'engagement des utilisateurs grâce à une automatisation avancée pourraient le distinguer à mesure que l'écosystème Web3 progresse. Alors que le marché des cryptomonnaies continue d'évoluer, les parties prenantes devraient garder un œil attentif sur les avancées concernant Euruka Tech, car le développement d'innovations documentées, de partenariats ou d'une feuille de route définie pourrait présenter des opportunités significatives dans un avenir proche. En l'état, nous attendons des informations plus substantielles qui pourraient révéler le potentiel d'Euruka Tech et sa position dans le paysage concurrentiel des cryptomonnaies.

537 vues totalesPublié le 2025.01.02Mis à jour le 2025.01.02

Qu'est ce que ERC AI

Qu'est ce que DUOLINGO AI

DUOLINGO AI : Intégration de l'apprentissage des langues avec l'innovation Web3 et IA À une époque où la technologie redéfinit l'éducation, l'intégration de l'intelligence artificielle (IA) et des réseaux blockchain annonce une nouvelle frontière pour l'apprentissage des langues. Entrez dans DUOLINGO AI et sa cryptomonnaie associée, $DUOLINGO AI. Ce projet aspire à fusionner la puissance éducative des principales plateformes d'apprentissage des langues avec les avantages de la technologie décentralisée Web3. Cet article explore les aspects clés de DUOLINGO AI, en examinant ses objectifs, son cadre technologique, son développement historique et son potentiel futur tout en maintenant une clarté entre la ressource éducative originale et cette initiative de cryptomonnaie indépendante. Vue d'ensemble de DUOLINGO AI Au cœur de DUOLINGO AI, l'objectif est d'établir un environnement décentralisé où les apprenants peuvent gagner des récompenses cryptographiques pour atteindre des jalons éducatifs en matière de compétence linguistique. En appliquant des contrats intelligents, le projet vise à automatiser les processus de vérification des compétences et d'attribution de jetons, en respectant les principes de Web3 qui mettent l'accent sur la transparence et la propriété des utilisateurs. Le modèle s'écarte des approches traditionnelles de l'acquisition des langues en s'appuyant fortement sur une structure de gouvernance pilotée par la communauté, permettant aux détenteurs de jetons de suggérer des améliorations au contenu des cours et à la distribution des récompenses. Parmi les objectifs notables de DUOLINGO AI, on trouve : Apprentissage ludique : Le projet intègre des réalisations basées sur la blockchain et des jetons non fongibles (NFT) pour représenter les niveaux de compétence linguistique, favorisant la motivation grâce à des récompenses numériques engageantes. Création de contenu décentralisée : Il ouvre des voies pour que les éducateurs et les passionnés de langues contribuent à leurs cours, facilitant un modèle de partage des revenus qui bénéficie à tous les contributeurs. Personnalisation alimentée par l'IA : En utilisant des modèles d'apprentissage automatique avancés, DUOLINGO AI personnalise les leçons pour s'adapter aux progrès d'apprentissage individuels, semblable aux fonctionnalités adaptatives trouvées dans les plateformes établies. Créateurs du projet et gouvernance À partir d'avril 2025, l'équipe derrière $DUOLINGO AI reste pseudonyme, une pratique fréquente dans le paysage décentralisé des cryptomonnaies. Cette anonymat est destiné à promouvoir la croissance collective et l'engagement des parties prenantes plutôt qu'à se concentrer sur des développeurs individuels. Le contrat intelligent déployé sur la blockchain Solana note l'adresse du portefeuille du développeur, ce qui signifie l'engagement envers la transparence concernant les transactions malgré l'identité inconnue des créateurs. Selon sa feuille de route, DUOLINGO AI vise à évoluer vers une Organisation Autonome Décentralisée (DAO). Cette structure de gouvernance permet aux détenteurs de jetons de voter sur des questions critiques telles que les mises en œuvre de fonctionnalités et les allocations de trésorerie. Ce modèle s'aligne avec l'éthique de l'autonomisation communautaire que l'on trouve dans diverses applications décentralisées, soulignant l'importance de la prise de décision collective. Investisseurs et partenariats stratégiques Actuellement, il n'y a pas d'investisseurs institutionnels ou de capital-risqueurs identifiables publiquement liés à $DUOLINGO AI. Au lieu de cela, la liquidité du projet provient principalement des échanges décentralisés (DEX), marquant un contraste frappant avec les stratégies de financement des entreprises de technologie éducative traditionnelles. Ce modèle de base indique une approche pilotée par la communauté, reflétant l'engagement du projet envers la décentralisation. Dans son livre blanc, DUOLINGO AI mentionne la formation de collaborations avec des “plateformes d'éducation blockchain” non spécifiées visant à enrichir ses offres de cours. Bien que des partenariats spécifiques n'aient pas encore été divulgués, ces efforts collaboratifs laissent entrevoir une stratégie visant à mélanger l'innovation blockchain avec des initiatives éducatives, élargissant l'accès et l'engagement des utilisateurs à travers diverses voies d'apprentissage. Architecture technologique Intégration de l'IA DUOLINGO AI intègre deux composants majeurs alimentés par l'IA pour améliorer ses offres éducatives : Moteur d'apprentissage adaptatif : Ce moteur sophistiqué apprend des interactions des utilisateurs, similaire aux modèles propriétaires des grandes plateformes éducatives. Il ajuste dynamiquement la difficulté des leçons pour répondre aux défis spécifiques des apprenants, renforçant les points faibles par des exercices ciblés. Agents conversationnels : En utilisant des chatbots alimentés par GPT-4, DUOLINGO AI offre une plateforme permettant aux utilisateurs de s'engager dans des conversations simulées, favorisant une expérience d'apprentissage des langues plus interactive et pratique. Infrastructure blockchain Construit sur la blockchain Solana, $DUOLINGO AI utilise un cadre technologique complet qui comprend : Contrats intelligents de vérification des compétences : Cette fonctionnalité attribue automatiquement des jetons aux utilisateurs qui réussissent des tests de compétence, renforçant la structure d'incitation pour des résultats d'apprentissage authentiques. Badges NFT : Ces jetons numériques signifient divers jalons que les apprenants atteignent, tels que la complétion d'une section de leur cours ou la maîtrise de compétences spécifiques, leur permettant d'échanger ou de montrer leurs réalisations numériquement. Gouvernance DAO : Les membres de la communauté dotés de jetons peuvent participer à la gouvernance en votant sur des propositions clés, facilitant une culture participative qui encourage l'innovation dans les offres de cours et les fonctionnalités de la plateforme. Chronologie historique 2022–2023 : Conceptualisation Les bases de DUOLINGO AI commencent avec la création d'un livre blanc, mettant en avant la synergie entre les avancées de l'IA dans l'apprentissage des langues et le potentiel décentralisé de la technologie blockchain. 2024 : Lancement Beta Un lancement beta limité introduit des offres dans des langues populaires, récompensant les premiers utilisateurs avec des incitations en jetons dans le cadre de la stratégie d'engagement communautaire du projet. 2025 : Transition vers la DAO En avril, un lancement complet sur le mainnet a lieu avec la circulation de jetons, suscitant des discussions communautaires concernant d'éventuelles expansions vers les langues asiatiques et d'autres développements de cours. Défis et orientations futures Obstacles techniques Malgré ses objectifs ambitieux, DUOLINGO AI fait face à des défis significatifs. La scalabilité reste une préoccupation constante, en particulier pour équilibrer les coûts associés au traitement de l'IA et le maintien d'un réseau décentralisé réactif. De plus, garantir la qualité de la création et de la modération de contenu au sein d'une offre décentralisée pose des complexités pour maintenir des normes éducatives. Opportunités stratégiques En regardant vers l'avenir, DUOLINGO AI a le potentiel de tirer parti de partenariats de micro-certification avec des institutions académiques, fournissant des validations vérifiées par blockchain des compétences linguistiques. De plus, une expansion inter-chaînes pourrait permettre au projet de toucher des bases d'utilisateurs plus larges et d'autres écosystèmes blockchain, améliorant son interopérabilité et sa portée. Conclusion DUOLINGO AI représente une fusion innovante de l'intelligence artificielle et de la technologie blockchain, présentant une alternative axée sur la communauté aux systèmes d'apprentissage des langues traditionnels. Bien que son développement pseudonyme et son modèle économique émergent présentent certains risques, l'engagement du projet envers l'apprentissage ludique, l'éducation personnalisée et la gouvernance décentralisée éclaire une voie à suivre pour la technologie éducative dans le domaine de Web3. Alors que l'IA continue d'avancer et que l'écosystème blockchain évolue, des initiatives comme DUOLINGO AI pourraient redéfinir la manière dont les utilisateurs s'engagent dans l'éducation linguistique, autonomisant les communautés et récompensant l'engagement grâce à des mécanismes d'apprentissage innovants.

571 vues totalesPublié le 2025.04.11Mis à jour le 2025.04.11

Qu'est ce que DUOLINGO AI

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de AI (AI) sont présentées ci-dessous.

活动图片