抱抱脸模型TOP榜,我现在只服yuxinlu1

marsbitPublié le 2026-06-28Dernière mise à jour le 2026-06-28

Résumé

个人开发者yuxinlu1凭借两个开源模型冲上Hugging Face热榜前列,力压多家大厂模型,总下载量超70万。 其模型基于Gemma 4-12B,主打代码编程(V1)和智能体工具调用(V2)能力,并以GGUF量化格式发布,最低仅需约4.5GB显存即可本地运行,兼顾隐私与免费。V1专注生成可验证代码,V2增强了多步任务处理能力,在特定基准测试上表现达到基座的3.5倍。 作者逯雨鑫是在美AI方向研究生,项目纯属自费的个人探索。他投入约40小时,重点处理了高质量训练数据,并积极响应用户反馈。他认为个人开发者的优势在于能更专注解决具体痛点,而非追求全能。其成功也源于对本地、低门槛AI助手的定位,满足了大量用户对隐私和免费使用的需求。 除代码模型外,他早期还发布过中文网文生成LoRA等。他强调开源需真诚说明模型能力,并坚持应对挑战。目前其V3及基于Qwen3.6-27B的更大版本已在计划中。模型最适配llama.cpp平台。

一位个人开发者,竟然在一众大厂中,杀进了抱抱脸Models Trending榜的前排?!

这是普通的一天,我也普通地刷着抱抱脸的Trending榜。

第一是GLM-5.2,智谱最新开源模型,老熟人了,下载量6万多,不足为奇。

第二是百度的无限OCR,最近悄悄开源的,一口气能解析40多页文档,下载量也来到了7万。

再往下看,突然出现了一个个人账号:yuxinlu1

嗯......嗯?!

而且一占就是两个位置。

再一看下载量——最新数据已高达20.7万53.6万。好家伙,这是什么神仙模型来了?

甚至在此前一周,这位个人开发者的模型一度霸榜抱抱脸,力压GLM-5.2一头,连智谱负责人都在X上公开推荐:

也就是说,在智谱、百度、Qwen、NVIDIA...这些名字中间,一个个人开发者账号硬生生挤进了TOP,而且下载量还这么高。

不禁令人好奇:luyuxin究竟是谁?怎么能量这么大?

“素人模型”冲上抱抱脸热榜

这波Hugging Face热榜,前排基本是大厂、明星团队和热门赛道在卡位。

比如智谱GLM-5.2,753B超大参数,国产明星大模型;百度Unlimited-OCR,踩中了最近很火的OCR和文档理解方向。

再往下还有Qwen的AgentWorld、英伟达的 LocateAnything、微软的FastContext。

国产开源大模型的熟面孔也都在列:MiniMax M3、Kimi-K2.7-Code、DeepSeek-V4-Pro。

图像生成方向也有Krea,新模型Krea-2-Turbo和Krea-2-Raw都在榜上。

结果里面还夹了两个luyuxin的12B GGUF模型

不er...luyuxin你也太醒目了吧...

仔细一看,这两个新模型,主要把Fable 5的编程推理能力,蒸进了一个本地能跑的Gemma4-12B小模型里。

4.5GB显存就能跑,本地、离线、零API成本。普通玩家一张消费级显卡,甚至一台带统一内存的Mac,就能把它跑起来。

两个模型的分工也不同。

V1是Coder版,主打写代码、解题、生成可运行代码。

据模型卡,它的训练数据是“可验证”的代码推理:每条思维链对应的代码,都得真跑过测试、通过了才留下。

教师数据主要来自Cursor的Composer 2.5,外加Fable 5——Composer 2.5做错的题,会交给Fable 5重新推一遍,生成新的推理链和正确代码。

V1发布后,曾连续多日霸榜抱抱脸Trending榜榜首。

V2是agentic版,加了多步工具调用能力,能当本地Agent用,会自己读、推理、动手、再验证。

作者还跑了benchmark——在tau2-bench的telecom子集上,基座gemma-4-12B得分15%,V2版模型得分55%,大概是基础性能的3.5倍

不过作者也表示,这是本地自测、单一领域、20个任务跑出来的相对值,不能跟官方榜直接比,他也坦白跟frontier大模型还有不小差距。

作者还提到:Fable 5后来被下线了,只有他自己的数据集还保留着Fable 5“原始”的那份推理过程。

而社区贡献数据里缺失的那部分reasoning,他改用Claude Opus 4.8(xhigh)重新生成、一条条补了回来。

他也承认,重建出来的轨迹“可能和原版Fable 5有出入”,但这是当时唯一可行的方案。

他还在discussion里透露,这套微调数据其实只有约1万条examples。他强调,数据量没有大家想象得那么重要,真正关键的是质量、筛选和验证。

这套模型之所以能在抱抱脸上有这么高的热度,还有一个很现实的原因:本地能跑

这两个模型都是GGUF量化版

GGUF是llama.cpp生态里常见的本地模型格式,用户可以用llama.cpp、Ollama、LM Studio、Jan等工具直接加载。

这对coding场景尤其有吸引力。毕竟写代码、看仓库、跑命令、调bug,经常涉及私有项目和本地环境。能在自己机器上跑,就意味着不用把代码传到云端,也不用每次都付API调用成本。

更关键的是,它门槛不算高。

V1模型卡里写到,最小的Q2_K版本约4.5GB,只要有约4.5GB显存或统一内存,就能跑一个私有、离线的编程助手。

作者推荐的甜点位是Q4_K_M,大小约6.87GB;更高质量的Q8_0则约11.8GB

V2因为更偏agentic,作者没有放Q2_K。理由是压力测试没过,不够可靠。

所以V2的最小可靠版本从Q3_K_M开始,约5.7GB;推荐的Q4_K_M依然是约6.87GB

作者还提前剧透了后续计划——V3已经在路上。

他表示,V3仍然会沿着12B这条线继续做coding+agentic方向。作者说,自己也没想到这次后训练的提升会这么大,所以接下来会继续往前推。

尤其是在tau2-bench telecom上,V2还有一些“过度尝试、反复retry”的问题,V3会继续通过更多训练来改。

另一方面,他还在做一个更大的版本:Qwen3.6-27B。相当于把同一套coding+agentic配方放到更大的底座上,给显存更宽裕的用户用。

一个人,40小时,杀进大厂中间

能单枪匹马冲上抱抱脸热榜,下载量加起来超70万,在一众大厂机构间杀出一席之地。

这位作者究竟是何方神圣?

量子位与作者取得联系后,也得知了他的故事。

他叫逯雨鑫,目前是美国一所高校在读的AI方向研究生,本科念的是数据与商业分析,中间还专门去补过一轮全栈开发,把前后端、软件开发、数据处理都学了。

这两个爆火模型,并不是他的主业,而是纯自费的个人项目

“开源这东西其实只是花钱,并不会让你有任何收入。”他很清楚这一点,因此他做V1的最初动机,反而是“自我提升”:

学校教的知识更新太慢,他读研时教授讲的还是两三年前的内容,而AI日新月异,他干脆拿这个项目来逼自己追上最新的东西。

为了做这些模型,他烧掉了整整一个Claude Max 20×套餐,单是V2就花了40多个小时。

一条条合成数据、手动清洗、训练、评测、再训练,几乎全是一个人扛下来的。

硬件上,他用的是一张RTX 5090,显存为32GB VRAM;另外还有约96GB的本地SSD资源可配合使用。实际能调动的资源规模大约在128GB左右。

对个人开发者来说不算差,但跟大厂和AI Lab的算力池完全不是一个量级。

他告诉量子位,整个过程里最耗时的其实不是训练,而是数据处理

尤其是agentic数据,真实对话往往很长,一个任务可能有十几步,几千甚至几万个token。但受限于显存,他训练时一次最多只能喂2048 token。

所以他做了类似“滑动窗口”的处理:在每段多轮会话里,以最近一次用户消息为锚点,围绕一次工具调用,把上下文裁到预算以内。

V1和V2都以Gemma 4-12B为底座。选它不是因为好做,恰恰相反,Gemma 4的格式和工具协议都比较特殊,适配起来很麻烦,甚至很多客户端支持并不完善。

逯雨鑫表示,一方面是挑战自己;另一方面,是因为12B这个尺寸很有吸引力。

他算过,如果量化到3bit左右,很多8GB统一内存的Mac用户也能跑起来,还能留出一定上下文窗口。

我现在知道,很多人使用的电脑还是8GB左右的统一内存。所以我想在最大可能的参数量下,让更多人使用到。

逯雨鑫把本地模型的价值总结成两个词:

隐私,免费。

他觉得,很多人只是想让AI帮自己整理文件、处理数据、做PPT,或者体验一下agent,并不一定愿意每个月为Claude、GPT付费。

人可能就是想玩一玩,为什么非得要收费呢?

V1发布后,他一开始没太关注榜单,只是像往常一样在模型卡里说:如果大家喜欢、下载量和likes多,他就继续做V2。

没想到两三天后,模型突然从不知道多少名跳到第八;睡了一觉,又冲到第一。

随后,评论和issue大量涌进来。

他几乎每条都看。最多的时候,每天花三四个小时看Hugging Face评论、回复问题、测试用户反馈,再把结果告诉对方。

他表示:“社区有需求,我是真的在去做,这才是最关键的。”

原来还是个爱看网文的...

在HF上,逯雨鑫总共发布了9个公开模型,除了两个爆火模型,他还做过“直接蒸Claude”的模型。

比如gemma-4-12B-it-Claude-4.6-4.8-Opus-GGUF,可以理解成通用版Gemma4-12B蒸馏模型。

它不只限定编程,更像是在把Claude Opus的回答风格、推理习惯、thinking能力,往这个12B本地模型里压。

另一个模型则干脆换上JetBrains的编程模型Mellum2当底座,专做推理蒸馏。

再继续往下看...

等等,怎么还有网文的微调模型啊?

好家伙,还分了四个题材,都是中文网文LoRA,而且全都基于Qwen3.6。

逯雨鑫告诉量子位,这其实是他最早开始做Hugging Face模型的入口。

因为他自己本来就喜欢看小说。追一本没完结的小说时,读者焦虑;作者日更码字也很辛苦。

于是,他想做一整套免费的小说生成pipeline,用不同风格的中文小说LoRA,让作者能用AI提速,读者也能更快看到内容。

但中文小说LoRA在HF上并不算热门,后来他发现用户更关注coding和agentic,于是方向慢慢转到了现在这条线上。

当问及他对其他个人开发者有什么建议时,逯雨鑫说:真诚和坚持最重要

真诚,是不要夸大模型能力。哪里强,哪里弱,都说清楚。

你要如实告诉大家。我骗你说我这有多强,但真实使用下来出现很多问题,下次我一发东西,你就不相信我了。

坚持,则是开源作者必须接受这件事:你一定会遇到不好的声音。

模型火了以后,逯雨鑫也遇到过质疑,但他还是决定坚持下去。

在他看来,开源这条路本来就很难。

就算登顶Hugging Face热榜,也不会直接带来收入。更多时候,是自己花钱买算力、花时间处理数据、回复评论、修bug,然后还要面对少数负面声音。

而支撑他一路做下来的,还有一种很个人的工作节奏。

逯雨鑫提到,自己患有ADHD。

过去这可能意味着很难长期按部就班推进一件事,但在AI这个变化极快的领域,快速切换兴趣、迅速进入hyperfocus,反而成了某种优势。

他甚至认为:“AI时代是ADHD的天下。”因为一个方向凉下来后,如果还一直钻在里面,等再转去学新的东西,可能已经晚了。

聊到最后,我们也抛出了那个最初的问题:

作为个人开发者,凭什么能在大厂中间挤进前排?

逯雨鑫的回答很中肯。

他认为大厂当然能做得更好,有更多researcher,也有更强算力。

但大厂发布开源小模型,往往还承担品牌宣传、API引流等目标;而个人开发者没有这些包袱,反而可以更专注地解决一个具体痛点。

我很高兴,但不是说我真的全面打败了他们,只是可能更认真一些。

在他看来,这正是个人开源作者的机会:不必做全能模型,而是把一个足够具体的问题做到好用。

如果你也想体验一下这款本地模型,链接已经放在下方。

温馨提示:目前最适配的平台是llama.cpp,优先推荐大家使用~

HF地址:https://huggingface.co/yuxinlu1

本文来自微信公众号 “量子位”(ID:QbitAI),作者:关注前沿科技

Cryptos en tendance

Questions liées

Q文章中提到,个人开发者yuxinlu1在抱抱脸Models Trending榜上取得了什么成就?

A这位个人开发者yuxinlu1(本名逯雨鑫)在抱抱脸Models Trending榜上,凭借两个基于Gemma 4-12B的微调模型(Coder版和agentic版)进入了榜单前列,下载量合计超过70万,一度力压GLM-5.2等大厂模型成为榜首。

Qyuxinlu1发布的这两个热门模型主要针对什么需求,有何特点?

A这两个模型主要针对本地编程和AI助手(Agent)需求。其核心特点是将强大的编程推理能力(融合了Fable 5和Composer 2.5等技术)蒸馏到了一个较小的Gemma 4-12B模型中,并以GGUF格式发布。这使得模型只需数GB显存或统一内存即可在本地离线运行,兼顾了性能、隐私和零API成本,特别适合代码开发、私有项目处理等场景。

Q根据文章,作者逯雨鑫制作这些模型的动机和过程是怎样的?

A逯雨鑫制作这些模型的初始动机是自我提升,以跟上AI领域的最新进展。这是一个纯自费的个人项目,他投入了大量时间进行数据处理、清洗、训练和评测,其中V2版本就花费了40多小时。整个过程最耗时的是数据处理,尤其是处理长对话的Agentic数据。他使用了一张RTX 5090显卡和约128GB的硬件资源,单枪匹马完成了所有工作。

Q逯雨鑫如何看待个人开发者模型能在大厂模型中脱颖而出的原因?

A他认为,大厂有资源和能力做得更好,但其开源小模型往往还承担品牌宣传、API引流等商业目标。而个人开发者没有这些包袱,可以更专注、更真诚地解决一个具体、明确的用户痛点(如本地、免费、好用的编程助手),并把这个问题做到足够好用。这种专注和解决实际问题的态度,是他认为模型能受欢迎的关键。

Q除了编程模型,逯雨鑫还在抱抱脸上发布过什么其他类型的模型?

A除了编程和Agent模型,逯雨鑫还发布过基于Claude Opus进行通用能力蒸馏的模型,以及一系列基于Qwen3.6的中文网络小说题材LoRA模型(如玄幻、都市等)。网文LoRA是他最初进入Hugging Face的切入点,旨在为作者和读者提供一个免费的小说生成辅助工具链。

Lectures associées

UK FCA dévoile son livre de règles pour les cryptomonnaies : Approche basée sur les risques débutant en octobre 2027

Le régulateur financier britannique (FCA) a dévoilé un nouveau cadre réglementaire pour le secteur de la cryptomonnaie, qui entrera en vigueur en octobre 2027. Plutôt qu’une approche uniforme, cette réglementation adopte une méthode basée sur les risques : les entreprises devront détenir des capitaux proportionnés à leur exposition au risque et réaliser leurs propres tests de résistance annuels. Les petites structures et celles présentant moins de risques bénéficieront d’obligations de déclaration allégées pour réduire leurs coûts de conformité. La FCA supervisera les évaluations des entreprises sans imposer de règles identiques à toutes, dans le but de renforcer la confiance sur le marché et d’attirer 3 à 4 millions d’utilisateurs supplémentaires au Royaume-Uni. Concernant les stablecoins, le cadre maintient des protections pour les consommateurs – comme la détention des réserves sous un trust légal – tout en assouplissant certaines exigences. Les émetteurs jugés systémiques pourraient toutefois faire face à une surveillance renforcée. Cette initiative vise à offrir une clarté réglementaire tout en tenant compte des spécificités du secteur, bien que certains acteurs alertent sur les risques d’appliquer des règles conçues pour la finance traditionnelle à des infrastructures décentralisées.

ambcryptoIl y a 1 h

UK FCA dévoile son livre de règles pour les cryptomonnaies : Approche basée sur les risques débutant en octobre 2027

ambcryptoIl y a 1 h

Les outils que vous utilisez tous les jours, Claude et Codex, sont maintenant limités en interne chez Meta

Meta, l'un des plus grands clients de Claude Code et Codex, a imposé en mai des restrictions internes à l'utilisation de ces assistants de programmation IA, malgré leur utilisation intensive. Ces limites, toujours en vigueur, visent à prévenir le "piège de la distillation", où les sorties des modèles concurrents pourraient contaminer les données d'entraînement et d'évaluation de MetaCode, l'assistant IA maison en développement. L'objectif est de protéger l'intégrité du processus d'apprentissage de MetaCode. Les directives interdisent spécifiquement d'utiliser Claude ou Codex pour générer des tests, corriger des bogues ou évaluer des performances, car cela impliquerait que MetaCode apprenne les "compétences" ou les standards de jugement de ses concurrents. Seules les tâches auxiliaires comme l'organisation du code sont autorisées, sous supervision humaine stricte. Cette démarche reflète une préoccupation industrielle plus large : lorsqu'une IA est utilisée pour en créer une autre, la frontière entre les capacétés développées indépendamment et celles dérivées d'un modèle concurrent devient floue. Meta cherche ainsi à éviter tout risque contractuel et à réduire sa dépendance et ses coûts face à des outils externes onéreux, tout en naviguant sur la ligne fine entre bénéficier de technologies avancées et préserver l'autonomie de son propre développement IA.

marsbitIl y a 1 h

Les outils que vous utilisez tous les jours, Claude et Codex, sont maintenant limités en interne chez Meta

marsbitIl y a 1 h

Planck a-t-il été rétracté ? Le père de la mécanique quantique trébuche sur un algorithme

Une récente découverte a révélé que deux articles du physicien légendaire Max Planck, publiés en 1940 et 1942 dans la revue allemande *Die Naturwissenschaften*, étaient marqués comme « retirés » (retracted) sur la plateforme numérique de Springer. Cette situation étonnante n'est pas due à une fraude ou une erreur scientifique, mais semble être le résultat d'un traitement automatique inapproprié par des algorithmes de l'éditeur. Les articles en question, de nature plutôt philosophique, s'inscrivaient dans les pratiques de diffusion courantes de l'époque, comme la republication d'un discours sous différents formats. Cependant, les systèmes modernes de gestion des droits d'auteur et de détection de duplication les ont probablement identifiés à tort comme des cas de « republication non autorisée » ou de violation de copyright. Conséquence frappante : sur le site de Springer, les textes originaux ont été remplacés par des pages vides, rendant les documents inaccessibles via cette source officielle. Cet incident met en lumière les risques de distorsion historique lorsque les archives scientifiques du passé sont traitées par les infrastructures numériques et les règles commerciales contemporaines. Il soulève des questions cruciales sur la préservation fidèle de la mémoire scientifique à l'ère du numérique et de l'IA, où de tels marquages erronés pourraient être perpétués et amplifiés par les futurs systèmes d'information.

marsbitIl y a 2 h

Planck a-t-il été rétracté ? Le père de la mécanique quantique trébuche sur un algorithme

marsbitIl y a 2 h

Remboursez ! Claude 4.8 subit une baisse d'intelligence nocturne, et GPT-5.6 voit sa puissance de calcul « divisée par deux »

Les géants de l'IA, OpenAI et Anthropic, sont au cœur d'une polémique concernant une éventuelle dégradation de leurs modèles. Du côté d'OpenAI, des tests suggèrent qu'une version "gpt-5.6-sol" serait testée en secret via Codex. Un test de "Juice" (représentant le budget de réflexion du modèle) montre que cette version retournerait la valeur 128, contre 768 pour le GPT-5.5 normal, soit une réduction perçue de 6x. Cela soulève la question : s'agit-il d'une avancée ou d'une version allégée pour réduire les coûts ? Chez Anthropic, l'indignation est plus vive. Les utilisateurs dénoncent une forte dégradation des performances de Claude, notamment l'Opus 4.8 Max. Ils rapportent une baisse drastique des capacités de raisonnement, des problèmes de mémoire contextuelle, des réponses erronées ou inutilement verbeuses, et un comportement parfois contradictoire, le modèle semblant "pousser au gaslighting". Pour beaucoup, sa performance est désormais inférieure à celle d'anciens modèles comme Haiku. L'article émet l'hypothèse que ces baisses pourraient être une stratégie délibérée. Les entreprises pourraient, en phase de lancement, booster temporairement les modèles pour créer l'illusion d'un progrès spectaculaire, puis réduire silencieusement leurs capacités pour maîtriser les coûts de calcul exorbitants, surtout dans un contexte financier tendu. L'énorme introduction en bourse de SpaceX aurait notamment asséché les liquidités du marché, mettant la pression sur les autres géants technologiques. Le scandale met en lumière un manque de transparence fondamental : les utilisateurs paient pour un service qui peut être modifié à leur insu, sans aucun recours ni explication. Le test "Juice" symbolise ainsi une demande de clarté : savoir ce que l'on achète réellement.

marsbitIl y a 2 h

Remboursez ! Claude 4.8 subit une baisse d'intelligence nocturne, et GPT-5.6 voit sa puissance de calcul « divisée par deux »

marsbitIl y a 2 h

Trading

Spot

Articles tendance

Comment acheter TOP

Bienvenue sur HTX.com ! Nous vous permettons d'acheter TOP AI Network (TOP) de manière simple et pratique. Suivez notre guide étape par étape pour commencer votre parcours crypto.Étape 1 : Création de votre compte HTXUtilisez votre adresse e-mail ou votre numéro de téléphone pour ouvrir un compte sur HTX gratuitement. L'inscription se fait en toute simplicité et débloque toutes les fonctionnalités.Créer mon compteÉtape 2 : Choix du mode de paiement (rubrique Acheter des cryptosCarte de crédit/débit : utilisez votre carte Visa ou Mastercard pour acheter instantanément TOP AI Network (TOP).Solde :utilisez les fonds du solde de votre compte HTX pour trader en toute simplicité.Prestataire tiers :pour accroître la commodité d'utilisation, nous avons ajouté des modes de paiement populaires tels que Google Pay et Apple Pay.P2P :tradez directement avec d'autres utilisateurs sur HTX.OTC (de gré à gré) : nous offrons des services personnalisés et des taux de change compétitifs aux traders.Étape 3 : stockage de vos TOP AI Network (TOP)Après avoir acheté vos TOP AI Network (TOP), stockez-les sur votre compte HTX. Vous pouvez également les envoyer ailleurs via un transfert sur la blockchain ou les utiliser pour trader d'autres cryptos.Étape 4 : tradez des TOP AI Network (TOP)Tradez facilement TOP AI Network (TOP) sur le marché Spot de HTX. Il vous suffit d'accéder à votre compte, de sélectionner la paire de trading, d'exécuter vos trades et de les suivre en temps réel. Nous offrons une expérience conviviale aux débutants comme aux traders chevronnés.

184 vues totalesPublié le 2024.12.10Mis à jour le 2026.06.02

Comment acheter TOP

Discussions

Bienvenue dans la Communauté HTX. Ici, vous pouvez vous tenir informé(e) des derniers développements de la plateforme et accéder à des analyses de marché professionnelles. Les opinions des utilisateurs sur le prix de TOP (TOP) sont présentées ci-dessous.

活动图片