Behind the AI Scorecards Lies a Chinese 'Question Setter'

marsbitPublicado em 2026-06-19Última atualização em 2026-06-19

Resumo

Behind the AI scorecards that dominate industry discussions—benchmarks like MMLU-Pro, MMMU, and MMMU-Pro—stands a Chinese-Canadian researcher: Wenhu Chen. As an assistant professor at the University of Waterloo and founder of the TIGER Lab, Chen has become a key "exam-setter" for evaluating large language and multimodal models. Chen first gained broader recognition with MMLU-Pro, a more challenging and stable update to the popular MMLU benchmark. As top models like OpenAI’s o3 began achieving near-perfect scores on the original MMLU, it became difficult to distinguish their true capabilities. MMLU-Pro introduced more complex reasoning questions, expanded answer choices, and filtered out ambiguous or simple items, effectively reintroducing differentiation among state-of-the-art models. His work on MMMU addressed the evaluation of multimodal models, requiring them to integrate visual information (like charts, diagrams, or tables) with textual knowledge across diverse academic subjects. Even the strongest models initially scored only around 56-59%, highlighting significant room for improvement in genuine multimodal reasoning. MMMU-Pro further refined this by preventing models from bypassing visual cues. Chen’s research focus has long been on complex information understanding and reasoning. His background—including a PhD at UC Santa Barbara, research at Google/DeepMind on Gemini, and now a role in Meta’s superintelligence lab—provides deep insight into model development and th...

By | Zimu AI

With every release of a frontier model, the AI community fixates on a few familiar scorecards.

MMLU-Pro, MMMU, MMMU-Pro... While these names might be unfamiliar to the average user, for model companies and researchers, they have essentially become "standard subjects." GPT, Claude, Gemini, Llama, Qwen, DeepSeek, and others continually submit their answers on these benchmarks.

"Put it to the test" - a model's performance often hinges on these scores for proof.

Many performance comparison charts in model launch presentations rely on them; some leaderboards on HuggingFace are also built upon these evaluation systems. It could even be said that when discussing model capabilities today, the AI industry is using a common language largely defined by these benchmarks.

Interestingly, while almost everyone focuses on the scores, few know who the question setters are. And behind MMLU-Pro, MMMU, and MMMU-Pro, one can find the same name—Wenhu Chen.

He is an Assistant Professor in the Computer Science Department at the University of Waterloo in Canada. On Google Scholar, his papers have been cited over 30,000 times.

He is also the founder of the "TIGER Lab" - the Text and Image GEnerative Research Lab. Because the name contains the Chinese character for "tiger" (虎, Hu), Chen Wenhu gave it a highly recognizable Chinese name—虎头帮 (Hutou Bang, Tiger Head Gang).

After the Old Exam Paper Fails

Chen Wenhu first caught wider attention because of MMLU-Pro.

MMLU was once one of the most commonly used benchmark evaluations for assessing the capabilities of large language models. It resembled a comprehensive test paper, covering multiple subjects, used to measure a model's performance in knowledge understanding and reasoning tasks.

In the early days, this paper was very useful. The scores could distinguish between models, and the industry could observe through it whether LLMs were genuinely improving.

But problems soon emerged.

As model capabilities continuously improved, MMLU gradually became "inadequate." The scores of frontier models got higher and higher, and the gaps between them grew smaller and smaller.

The issue became even more pronounced after OpenAI released o3. o3's accuracy on MMLU approached 100%, and other frontier models also subsequently submitted near-perfect scores.

This sounds like good news, but for evaluation purposes, it actually spells trouble.

If everyone scores close to full marks on an exam paper, it becomes difficult to continue judging who is stronger and where their strengths lie. It can still prove that models possess certain capabilities but is no longer suitable for measuring new progress.

The AI industry needed a harder, less "cheatable" exam paper.

In 2024, Chen Wenhu and his team introduced MMLU-Pro.

MMLU-Pro revamped this exam paper rather than simply expanding the question bank.

It contains 12,032 questions, covering 14 fields including mathematics, physics, chemistry, law, engineering, psychology, and health. Compared to the original MMLU, it expanded the multiple-choice options from 4 to 10, reducing the probability of models guessing correctly. It also incorporated more reasoning-oriented questions and filtered out relatively simple, ambiguous, or poorly discriminative questions from the original bank.

The effect was direct.

Paper results showed that model accuracy on MMLU-Pro decreased by 16% to 33% compared to the original MMLU. When testing the same model with 24 different prompt styles, score fluctuation also decreased from 4% to 5% on the original MMLU to about 2%.

In other words, this new paper is not only harder but also more stable.

It re-established gaps between models that all seemed excellent on the old exam paper. It also became easier to discern whether a model truly understands reasoning or is merely better at handling old-style questions.

Useful Benchmark Evaluations

The industry soon adopted MMLU-Pro.

MMLU-Pro subsequently entered the NeurIPS 2024 Datasets and Benchmarks Track and was integrated into EleutherAI's language model evaluation framework, lm-evaluation-harness. For the open-source model community, this meant it was no longer just a dataset in a paper but had entered the common evaluation toolchain.

Many model releases began reporting MMLU-Pro scores. Some leaderboards on HuggingFace also incorporated it into their evaluation systems.

If MMLU-Pro solved the problem of the "old exam paper failing" in language model evaluation, then MMMU propelled Chen Wenhu and TIGER Lab to the center of multimodal evaluation.

The problem with multimodal models is more complex.

Language models answer questions, primarily processing text. Multimodal models must simultaneously handle information in various forms: images, charts, diagrams, maps, tables, musical scores, chemical structures, etc. It's not just about understanding the question stem; it must truly comprehend the content within the images and integrate visual information, textual information, and subject knowledge for reasoning.

The MMMU benchmark contains 11,500 multimodal questions sourced from university exams, quizzes, and textbooks. It covers six major domains: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Technology & Engineering, further subdivided into 30 subjects and 183 subfields.

These questions don't simply ask the model "what's in the picture"; they require the model to combine image information with subject knowledge, much like a student solving a professional problem.

When MMMU was released, the research team tested 14 open-source multimodal models, as well as representative closed-source models like GPT-4V and Gemini Ultra. Even the strongest closed-source models at the time, GPT-4V and Gemini Ultra, only achieved accuracy rates of 56% and 59% respectively.

These numbers indicate that while multimodal models appear to be advancing rapidly, they still have substantial room for improvement on problems requiring genuine professional understanding and reasoning.

Later, Chen Wenhu's team launched MMMU-Pro, further closing avenues for models to bypass visual information. It filtered out questions that text-only models could also answer, expanded answer choices, and introduced a vision-only setting, embedding the question within the image, requiring the model to perform both visual reading and text comprehension simultaneously.

Simply put, it prevents the model from "guessing the answer by only reading the text."

This kind of work might sound somewhat tedious, but it's crucial. Because multimodal models will enter scenarios like healthcare, education, scientific research, design, and engineering in the future, merely describing images is insufficient. They must be capable of judgment, reasoning, explanation, and identifying truly useful information within complex visual data.

The Person Behind the "Exam Papers"

Chen Wenhu's later work on MMLU-Pro and MMMU stemmed from his long-standing research focus.

His research interests have always been related to complex information understanding, knowledge question answering, and reasoning.

He earned his bachelor's degree from Huazhong University of Science and Technology, then pursued a master's at RWTH Aachen University in Germany, and obtained his Ph.D. in Computer Science from the University of California, Santa Barbara. During his Ph.D., he was already conducting research in areas like complex QA, table reasoning, and knowledge evidence localization.

These tasks share a common characteristic: the answer is often not found within a single piece of text.

It might be hidden within a table, require combining a passage of text and an image, or necessitate the model to first retrieve information, then integrate, calculate, and reason. The model cannot merely recite existing knowledge.

Projects Chen Wenhu has been involved in, such as HybridQA, TabFact, Program of Thoughts, and MAmmoTH, are all related to this line of work.

This also explains his sensitivity to loopholes in model evaluation.

A good benchmark evaluation is not simply about making questions increasingly difficult; it's about anticipating where models are most likely to "guess correctly" or "appear competent."

A model might memorize the question bank, guess answers based on options, or use text to circumvent visual information... A good evaluation must patch these vulnerabilities.

After completing his Ph.D., Chen Wenhu joined Google Research and later worked on Google DeepMind's Gemini multimodal model and evaluation from 2021 to 2025. This experience was also significant. Long-term exposure to frontier model development gave him a clearer understanding of how model capabilities grow and made it easier to spot potential biases and blind spots in evaluation.

In the fall of 2022, Chen Wenhu joined the School of Computer Science at the University of Waterloo as an Assistant Professor. That same year, he was selected as a Canada CIFAR AI Chair. Subsequently, he founded the "TIGER Lab (aka Hutou Bang)" and continued research around foundation models, multimodal capabilities, and benchmark evaluations.

Hutou Bang doesn't just work on benchmark evaluations; it also conducts model and systems research.

In the video domain, UniVideo attempts to place video understanding, generation, and editing within a single framework, enabling the model not only to generate footage but also to understand content, respond to instructions, and complete edits. Vamba targets long video understanding, addressing memory, computation, and training efficiency issues posed by hour-long videos. MoCha, developed in collaboration with Meta's Generative AI team, focuses on talking virtual character generation, producing high-quality human videos from audio and textual descriptions.

A question setter who never solves problems themselves cannot create good questions. Working on models themselves conversely makes them more suitable for evaluation.

Because truly good evaluation often stems from an understanding of model capability boundaries. Only by knowing how models are built and the problems they encounter in real-world tasks is it easier to design questions that can measure differences and expose issues.

Currently, Chen Wenhu has joined Meta's Superalignment Lab, where his work continues to focus on multimodal pre-training data and evaluation, serving Meta's foundational models.

The AI industry is not short of visible figures. Spotlights typically shine on entrepreneurs, star researchers, and leaders of major model companies. New product launches, funding news, open-source models, and team changes often attract the most external attention, making these names more likely to enter the public eye.

But the involvement of Chinese talent in today's AI field extends far beyond these most prominent positions.

Criptomoedas em alta

CitreaCTR

wrapped stUSDTWSTUSDT

Velodrome FinanceVELODROME

BrevisBREV

ZRX（0X）ZRX

Perguntas relacionadas

QWho is the 'question setter' behind benchmark evaluations like MMLU-Pro and MMMU, and what is his main contribution?

AThe 'question setter' is Wenhu Chen (Chen Wenhu), an assistant professor at the University of Waterloo. His main contribution is creating and leading the development of influential benchmark evaluations like MMLU-Pro and MMMU/MMMU-Pro, which have become standard tests for evaluating the reasoning and multimodal abilities of large AI models.

QWhy was MMLU-Pro created, and how did it improve upon the original MMLU benchmark?

AMMLU-Pro was created because the original MMLU benchmark became less effective as top models like OpenAI's o3 achieved near-perfect scores, making it hard to distinguish their capabilities. MMLU-Pro improved upon it by expanding answer choices from 4 to 10 to reduce guessing, adding more reasoning-oriented questions, and filtering out simpler or ambiguous questions. This made the test harder (causing accuracy drops of 16-33%) and more stable, effectively differentiating model performance.

QWhat are the key features and purpose of the MMMU benchmark for multimodal AI models?

AThe MMMU benchmark is designed to rigorously evaluate multimodal AI models. Its key features include: 11,500 multimodal questions from academic sources, coverage of 6 major domains and 30 subjects, and questions that require combining visual information (like charts, diagrams, maps) with domain knowledge for reasoning. Its purpose is to test true multimodal understanding and complex reasoning, not just image description. Even top models like GPT-4V initially scored only around 56% accuracy, highlighting significant room for improvement.

QHow does Wenhu Chen's research background and experience contribute to his work on AI benchmarks?

AWenhu Chen's research background in complex information understanding, knowledge QA, and reasoning (e.g., HybridQA, TabFact) gives him a keen eye for how models might 'cheat' or find shortcuts in evaluations. His experience at Google DeepMind working on Gemini provided insider knowledge of model development and evaluation pitfalls. Furthermore, his own lab, TIGERLab, also builds models (like UniVideo for video tasks). This combination—understanding model creation, real-world tasks, and potential evaluation loopholes—makes him particularly adept at designing robust benchmarks that expose true capability gaps.

QWhat is the TIGERLab (or 'Tiger Gang'), and what kind of work does it do besides creating benchmarks?

ATIGERLab (Text and Image GEnerative Research Lab), nicknamed 'Tiger Gang,' is Wenhu Chen's research lab at the University of Waterloo. Besides creating benchmarks, it conducts research on building AI models and systems. Key projects include UniVideo (a unified framework for video understanding, generation, and editing), Vamba (for long video understanding), and MoCha (in collaboration with Meta, for generating talking virtual avatars). This hands-on model development work informs their benchmark design, ensuring the evaluations are grounded in real technical challenges.

Leituras Relacionadas

Behind the AI Report Card, Lies a Chinese 'Exam Setter'

Beyond the familiar performance charts like MMLU-Pro and MMMU, which major AI models strive to ace, stands a key "examiner": Chinese-Canadian researcher Wenhu Chen. An assistant professor at the University of Waterloo and founder of TIGERLab, Chen addresses the crucial need for more rigorous AI evaluation. As models like GPT-4 began scoring near-perfect results on older benchmarks like MMLU, it became difficult to distinguish their true capabilities. In response, Chen introduced MMLU-Pro in 2024, featuring harder, more reasoning-focused questions with more answer choices, successfully reintroducing meaningful performance gaps. His work extends to multi-modal evaluation with MMMU and its enhanced version, MMMU-Pro. These benchmarks test a model's ability to understand and reason with complex information from images, charts, and text across diverse academic subjects, exposing the significant challenges even top models face in genuine comprehension. Chen's background in complex QA, table reasoning, and his experience at Google DeepMind on projects like Gemini inform his approach. He understands that effective benchmarks must anticipate how models might "cheat" by memorizing data or avoiding visual analysis. His lab also actively researches video understanding and generation models (e.g., UniVideo, Vamba), ensuring his evaluation work is grounded in practical model-building challenges. Now at Meta's Super Intelligence Lab, Chen continues his focus on multi-modal data and evaluation, representing the deep yet often unseen contributions of Chinese talent in shaping the fundamental tools of the AI industry.

marsbitHá 12m

Behind the AI Report Card, Lies a Chinese 'Exam Setter'

marsbitHá 12m

Alliance Co-founder's Letter to Entrepreneurs: Written at the Moment Cursor Sold for $600 Billion

Alliance Co-founder's Letter to Entrepreneurs: On Cursor's $60 Billion Sale Many aspiring founders see massive exits like Cursor's $60B sale and wonder why they can't achieve the same, often concluding opportunities are exhausted. But great companies aren't built in obvious, crowded spaces. Cursor, like Stripe, Figma, and Shopify before it, started with a non-consensus belief about the future. Before ChatGPT, they believed AI would transform knowledge work. They focused on a genuinely exciting domain, became their own customer, and obsessed over power users. Their journey involved years of "glass-chewing" effort before the market was ready. The pattern is consistent: identify a long-term technological shift, find a missed entry point, and execute for years before the trend becomes obvious. First-generation products (PayPal, Adobe, Amazon) prove a market exists. Second-generation winners (Stripe, Figma, Shopify) rebuild that market around new insights, technology, or changing customer behaviors. Founders must identify their phase in the cycle. Early entrants like Coinbase or Cursor focus on making new technology usable for power users. Later entrants find the "yin" to the established "yang"—the blind spots incumbents miss as they grow distant from individual users. The key is deep market immersion. Use every product in your space. Talk to users. Build an audience. Stop looking for ideas and start *seeing* them everywhere. Then, choose one. The idea must offer a 10x improvement or solve a "hair-on-fire" pain point—something severe enough that users are already crafting workarounds. When building, avoid feature bloat. Ask: why would someone switch? Great startups rarely force new behaviors; they improve familiar workflows with drastically lower friction (e.g., Cursor forked VS Code instead of creating a new editor). Distribution is the underestimated moat. Before product-market fit, achieve distribution-market fit. How do customers discover new tools? Founders like those at Airbnb, Stripe, and Cursor did unscalable, manual work to recruit early users. The final, unteachable ingredient is resilience. Cursor built for years pre-market, faced rejection, and persisted. So did Airbnb, Nvidia, and Rain (which launched post-FTX collapse). The lesson isn't that these founders were smarter, but that they stayed in the game long enough for their insights to compound. Framework: Spot technological cycles. Cultivate unique insight. Obsess over your market. Talk to customers. Find a hair-on-fire problem. Build the simplest wedge. Win your distribution channel. Above all, don't quit when it gets hard. Most people won't do these things consistently. The few who do build the next generation of great companies. Go build.

marsbitHá 16m

Alliance Co-founder's Letter to Entrepreneurs: Written at the Moment Cursor Sold for $600 Billion

marsbitHá 16m

Weekly Editor's Picks (0613-0619)

Weekly Editor's Picks (0613-0619): Market Insights & Analysis This weekly digest curates in-depth analysis often lost in the information flow, focusing on key insights across macro trends, investment, and technology. **Macro & Geopolitics:** With the Strait of Hormuz reopening and military conflict shifting to negotiation, markets are pivoting from "war shock" to "supply restoration." Trades include shorting crude risk premiums, longing airlines/tourism, Asian energy importers, and bond duration, while shorting inflation expectations. LNG, fertilizer, and chemical chains are also being repriced. **Investment & VC:** Ray Dalio advises against betting on concentrated AI giants dominating indices, advocating for diversified portfolios of high-quality, low-correlation assets instead. Analysis covers the 4-year crypto cycle, predicting the core surviving product by 2029 will be asset trading markets. Current BTC metrics suggest a potential bottoming zone, presenting a patient accumulation window. SpaceX's high-profile IPO at a $2.1T valuation faces scrutiny over fundamentals, with key watchpoints being its likely inclusion in the Nasdaq index and Q2 earnings. Concerns are raised about potential "gamma squeeze" and systemic risks if its narrative-driven valuation gets amplified by passive index funds. Robinhood (HOOD) is noted for breaking its high correlation with crypto, bolstered by its stock trading and new underwriting business. **Web3 & AI:** A warning highlights ~$1.8T in off-balance-sheet AI infrastructure commitments (purchase commitments, leases) as a potential systemic risk if AI monetization lags. AI models are being used for World Cup predictions, adding a new layer for betting markets. A cost breakdown of a $20 AI subscription reveals the supply chain from model companies to cloud, GPUs, and power. **Prediction Markets:** The emergence of prediction market "concept stocks" is noted, with Robinhood developing its own platform, Rothera, signaling a shift from market competition to a "channel war" for user access. **CeFi & DeFi:** The SpaceX IPO tested perpetual contract mechanisms for pre-IPO assets, highlighting challenges in handling corporate actions like stock splits on-chain. The de-pegging of STRC (Strategy's preferred share) to ~$89 reflects market concerns over MicroStrategy's capital structure and BTC-backed leverage model. BlackRock's covered-call Bitcoin ETF (BITA) offers yield but caps upside, appealing to yield-seeking institutions. **Ethereum:** An opinion piece argues Ethereum's core strength is its vast developer community and composability, solidifying its role as the default operating system for the financial internet. **Weekly Hot Topics:** Include the US-Iran deal reopening the Strait of Hormuz, Fed's hawkish hold, Anthropic restricting model access, SpaceX acquiring Cursor, and a humorous stock surge for "Liuliumei" due to its "LLM" ticker.

marsbitHá 20m

Alliance's Co-Founder's Letter to Entrepreneurs: Written on the Occasion of Cursor's $60 Billion Sale

In this letter to entrepreneurs, Alliance reflects on the success of Cursor's $60 billion sale to Elon Musk, using it as a case study to counter the misconception that opportunities in crowded fields like AI or crypto are exhausted. The piece argues that great companies like Cursor, Stripe, Figma, and Shopify are not built by geniuses with perfect ideas, but by founders who start with a non-consensus belief about the future and build for years before that future becomes obvious to everyone. They identify long-term shifts, find overlooked entry points, and execute relentlessly. The framework for success involves: 1. **Identifying your place in the technology cycle**: Early-stage opportunities focus on making new tech usable for power users (e.g., Coinbase, Cursor). Later-stage opportunities involve finding the "yin" to an existing "yang"—the blind spots of first-generation players (e.g., Stripe vs. PayPal, Figma vs. Adobe). 2. **Cultivating unique insights**: Immerse yourself deeply in the market. Use every product, talk to users, and build an audience. Insights will emerge naturally from deep engagement. 3. **Finding a "hair-on-fire" problem**: Look for a 10x improvement or a severe, urgent pain point. The strongest signal is people already building clumsy workarounds. 4. **Building a focused MVP**: Don't just add features because you can. Ask why users would abandon their current tool for yours. The best startups rarely force new behaviors; they improve familiar workflows with drastically lower friction. 5. **Winning a distribution channel**: Distribution is often the moat. Before product-market fit, achieve channel-market fit. Find where your customers are and build an engine to reach them, even through unscalable, manual efforts initially. 6. **Persistence**: The final, unteachable ingredient is resilience. Success stories like Cursor, Airbnb, and Nvidia involved years of grinding, rejection, and perseverance when the path forward seemed unclear. The conclusion is that there is no secret. Most people fail to consistently execute these steps over the long term. The few who do build the companies that define the next era. The world is yours to create.

链捕手Há 26m

Alliance's Co-Founder's Letter to Entrepreneurs: Written on the Occasion of Cursor's $60 Billion Sale

链捕手Há 26m

Crypto Miners' Big AI Gamble: Valuations Enter Differentiation Stage, Comeback Fight Proves Tough

Crypto Mining Firms' AI Bet: Valuation Divergence and a Challenging Transformation Facing declining profitability in crypto mining, mining companies are pivoting to AI infrastructure, capitalizing on their existing power resources, land, and data center expertise to offer GPU compute power. This transition narrative has boosted their stock prices significantly, with firms like Hut 8 and Bitfarms seeing gains over 100% year-to-date, far outpacing Bitcoin. This has led to a market valuation split, with pioneers like CoreWeave reaching a $62.8B market cap, while others remain below $5B. The market currently prioritizes growth potential over short-term profits, which remain under pressure due to heavy capital expenditures for AI build-outs and crypto asset volatility. However, the transformation is a high-stakes gamble. Bitcoin mining profitability is shrinking, with the average production cost around $63,707 and miner margins contracting. While AI offers a more lucrative long-term path, it requires massive investment—estimated at a $500B near-term funding gap. Success now hinges on execution: delivering on contracted power capacity, securing quality tenants like major cloud providers, and managing the immense financial burden. The valuation focus is shifting from mere power capacity to project delivery, future cash flows, and tenant quality, making this a difficult but critical turnaround attempt.

链捕手Há 35m

Crypto Miners' Big AI Gamble: Valuations Enter Differentiation Stage, Comeback Fight Proves Tough

链捕手Há 35m

Trading

Spot

Futuros

Artigos em Destaque

O que é GROK AI

Grok AI: Revolucionar a Tecnologia Conversacional na Era Web3 Introdução No panorama em rápida evolução da inteligência artificial, a Grok AI destaca-se como um projeto notável que liga os domínios da tecnologia avançada e da interação com o utilizador. Desenvolvida pela xAI, uma empresa liderada pelo renomado empreendedor Elon Musk, a Grok AI procura redefinir a forma como interagimos com a inteligência artificial. À medida que o movimento Web3 continua a florescer, a Grok AI visa aproveitar o poder da IA conversacional para responder a consultas complexas, proporcionando aos utilizadores uma experiência que é não apenas informativa, mas também divertida. O que é a Grok AI? A Grok AI é um sofisticado chatbot de IA conversacional projetado para interagir com os utilizadores de forma dinâmica. Ao contrário de muitos sistemas de IA tradicionais, a Grok AI abraça uma gama mais ampla de perguntas, incluindo aquelas tipicamente consideradas inadequadas ou fora das respostas padrão. Os principais objetivos do projeto incluem: Raciocínio Fiável: A Grok AI enfatiza o raciocínio de senso comum para fornecer respostas lógicas com base na compreensão contextual. Supervisão Escalável: A integração de assistência de ferramentas garante que as interações dos utilizadores sejam monitorizadas e otimizadas para qualidade. Verificação Formal: A segurança é primordial; a Grok AI incorpora métodos de verificação formal para aumentar a fiabilidade das suas saídas. Compreensão de Longo Contexto: O modelo de IA destaca-se na retenção e recordação de um extenso histórico de conversas, facilitando discussões significativas e contextualizadas. Robustez Adversarial: Ao focar na melhoria das suas defesas contra entradas manipuladas ou maliciosas, a Grok AI visa manter a integridade das interações dos utilizadores. Em essência, a Grok AI não é apenas um dispositivo de recuperação de informações; é um parceiro conversacional imersivo que incentiva um diálogo dinâmico. Criador da Grok AI A mente por trás da Grok AI não é outra senão Elon Musk, um indivíduo sinónimo de inovação em vários campos, incluindo automóvel, viagens espaciais e tecnologia. Sob a égide da xAI, uma empresa focada em avançar a tecnologia de IA de maneiras benéficas, a visão de Musk visa reformular a compreensão das interações com a IA. A liderança e a ética fundacional são profundamente influenciadas pelo compromisso de Musk em ultrapassar os limites tecnológicos. Investidores da Grok AI Embora os detalhes específicos sobre os investidores que apoiam a Grok AI permaneçam limitados, é reconhecido publicamente que a xAI, a incubadora do projeto, é fundada e apoiada principalmente pelo próprio Elon Musk. As anteriores empreitadas e participações de Musk fornecem um forte apoio, reforçando ainda mais a credibilidade e o potencial de crescimento da Grok AI. No entanto, até agora, informações sobre fundações ou organizações de investimento adicionais que apoiam a Grok AI não estão prontamente acessíveis, marcando uma área para exploração futura potencial. Como Funciona a Grok AI? A mecânica operacional da Grok AI é tão inovadora quanto a sua estrutura conceptual. O projeto integra várias tecnologias de ponta que facilitam as suas funcionalidades únicas: Infraestrutura Robusta: A Grok AI é construída utilizando Kubernetes para orquestração de contêineres, Rust para desempenho e segurança, e JAX para computação numérica de alto desempenho. Este trio assegura que o chatbot opere de forma eficiente, escale eficazmente e sirva os utilizadores prontamente. Acesso a Conhecimento em Tempo Real: Uma das características distintivas da Grok AI é a sua capacidade de aceder a dados em tempo real através da plataforma X—anteriormente conhecida como Twitter. Esta capacidade concede à IA acesso às informações mais recentes, permitindo-lhe fornecer respostas e recomendações oportunas que outros modelos de IA poderiam perder. Dois Modos de Interação: A Grok AI oferece aos utilizadores a escolha entre “Modo Divertido” e “Modo Regular”. O Modo Divertido permite um estilo de interação mais lúdico e humorístico, enquanto o Modo Regular foca em fornecer respostas precisas e exatas. Esta versatilidade assegura uma experiência adaptada que atende a várias preferências dos utilizadores. Em essência, a Grok AI combina desempenho com envolvimento, criando uma experiência que é tanto enriquecedora quanto divertida. Cronologia da Grok AI A jornada da Grok AI é marcada por marcos fundamentais que refletem as suas fases de desenvolvimento e implementação: Desenvolvimento Inicial: A fase fundamental da Grok AI ocorreu ao longo de aproximadamente dois meses, durante os quais o treinamento inicial e o ajuste do modelo foram realizados. Lançamento Beta do Grok-2: Numa evolução significativa, o beta do Grok-2 foi anunciado. Este lançamento introduziu duas versões do chatbot—Grok-2 e Grok-2 mini—cada uma equipada com capacidades para conversar, programar e raciocinar. Acesso Público: Após o seu desenvolvimento beta, a Grok AI tornou-se disponível para os utilizadores da plataforma X. Aqueles com contas verificadas por um número de telefone e ativas há pelo menos sete dias podem aceder a uma versão limitada, tornando a tecnologia disponível para um público mais amplo. Esta cronologia encapsula o crescimento sistemático da Grok AI desde a sua concepção até ao envolvimento público, enfatizando o seu compromisso com a melhoria contínua e a interação com o utilizador. Principais Características da Grok AI A Grok AI abrange várias características principais que contribuem para a sua identidade inovadora: Integração de Conhecimento em Tempo Real: O acesso a informações atuais e relevantes diferencia a Grok AI de muitos modelos estáticos, permitindo uma experiência de utilizador envolvente e precisa. Estilos de Interação Versáteis: Ao oferecer modos de interação distintos, a Grok AI atende a várias preferências dos utilizadores, convidando à criatividade e personalização na conversa com a IA. Base Tecnológica Avançada: A utilização de Kubernetes, Rust e JAX fornece ao projeto uma estrutura sólida para garantir fiabilidade e desempenho ótimo. Consideração de Discurso Ético: A inclusão de uma função de geração de imagens demonstra o espírito inovador do projeto. No entanto, também levanta considerações éticas em torno dos direitos autorais e da representação respeitosa de figuras reconhecíveis—uma discussão em curso dentro da comunidade de IA. Conclusão Como uma entidade pioneira no domínio da IA conversacional, a Grok AI encapsula o potencial para experiências transformadoras do utilizador na era digital. Desenvolvida pela xAI e impulsionada pela abordagem visionária de Elon Musk, a Grok AI integra conhecimento em tempo real com capacidades avançadas de interação. Esforça-se por ultrapassar os limites do que a inteligência artificial pode alcançar, mantendo um foco nas considerações éticas e na segurança do utilizador. A Grok AI não apenas incorpora o avanço tecnológico, mas também representa um novo paradigma de conversas no panorama Web3, prometendo envolver os utilizadores com conhecimento hábil e interação lúdica. À medida que o projeto continua a evoluir, ele permanece como um testemunho do que a interseção da tecnologia, criatividade e interação humana pode alcançar.

484 Visualizações TotaisPublicado em {updateTime}Atualizado em 2024.12.26

O que é ERC AI

Euruka Tech: Uma Visão Geral do $erc ai e as suas Ambições no Web3 Introdução No panorama em rápida evolução da tecnologia blockchain e das aplicações descentralizadas, novos projetos surgem frequentemente, cada um com objetivos e metodologias únicas. Um desses projetos é a Euruka Tech, que opera no vasto domínio das criptomoedas e do Web3. O foco principal da Euruka Tech, particularmente do seu token $erc ai, é apresentar soluções inovadoras concebidas para aproveitar as capacidades crescentes da tecnologia descentralizada. Este artigo tem como objetivo fornecer uma visão abrangente da Euruka Tech, uma exploração das suas metas, funcionalidade, a identidade do seu criador, potenciais investidores e a sua importância no contexto mais amplo do Web3. O que é a Euruka Tech, $erc ai? A Euruka Tech é caracterizada como um projeto que aproveita as ferramentas e funcionalidades oferecidas pelo ambiente Web3, focando na integração da inteligência artificial nas suas operações. Embora os detalhes específicos sobre a estrutura do projeto sejam um tanto elusivos, ele é concebido para melhorar o envolvimento dos utilizadores e automatizar processos no espaço cripto. O projeto visa criar um ecossistema descentralizado que não só facilita transações, mas também incorpora funcionalidades preditivas através da inteligência artificial, daí a designação do seu token, $erc ai. O objetivo é fornecer uma plataforma intuitiva que facilite interações mais inteligentes e um processamento eficiente de transações dentro da crescente esfera do Web3. Quem é o Criador da Euruka Tech, $erc ai? Neste momento, a informação sobre o criador ou a equipa fundadora da Euruka Tech permanece não especificada e algo opaca. Esta ausência de dados levanta preocupações, uma vez que o conhecimento sobre o histórico da equipa é frequentemente essencial para estabelecer credibilidade no setor blockchain. Portanto, categorizamos esta informação como desconhecida até que detalhes concretos sejam disponibilizados no domínio público. Quem são os Investidores da Euruka Tech, $erc ai? De forma semelhante, a identificação de investidores ou organizações de apoio para o projeto Euruka Tech não é prontamente fornecida através da pesquisa disponível. Um aspeto que é crucial para potenciais partes interessadas ou utilizadores que consideram envolver-se com a Euruka Tech é a garantia que vem de parcerias financeiras estabelecidas ou apoio de empresas de investimento respeitáveis. Sem divulgações sobre afiliações de investimento, é difícil tirar conclusões abrangentes sobre a segurança financeira ou a longevidade do projeto. Em linha com a informação encontrada, esta seção também se encontra no estado de desconhecido. Como funciona a Euruka Tech, $erc ai? Apesar da falta de especificações técnicas detalhadas para a Euruka Tech, é essencial considerar as suas ambições inovadoras. O projeto procura aproveitar o poder computacional da inteligência artificial para automatizar e melhorar a experiência do utilizador no ambiente das criptomoedas. Ao integrar IA com tecnologia blockchain, a Euruka Tech visa fornecer funcionalidades como negociações automatizadas, avaliações de risco e interfaces de utilizador personalizadas. A essência inovadora da Euruka Tech reside no seu objetivo de criar uma conexão fluida entre os utilizadores e as vastas possibilidades apresentadas pelas redes descentralizadas. Através da utilização de algoritmos de aprendizagem automática e IA, visa minimizar os desafios enfrentados por utilizadores de primeira viagem e agilizar as experiências transacionais dentro do quadro do Web3. Esta simbiose entre IA e blockchain sublinha a importância do token $erc ai, que se apresenta como uma ponte entre interfaces de utilizador tradicionais e as capacidades avançadas das tecnologias descentralizadas. Cronologia da Euruka Tech, $erc ai Infelizmente, devido à informação limitada disponível sobre a Euruka Tech, não conseguimos apresentar uma cronologia detalhada dos principais desenvolvimentos ou marcos na jornada do projeto. Esta cronologia, tipicamente inestimável para traçar a evolução de um projeto e compreender a sua trajetória de crescimento, não está atualmente disponível. À medida que informações sobre eventos notáveis, parcerias ou adições funcionais se tornem evidentes, atualizações certamente aumentarão a visibilidade da Euruka Tech na esfera cripto. Esclarecimento sobre Outros Projetos “Eureka” É importante abordar que múltiplos projetos e empresas partilham uma nomenclatura semelhante com “Eureka.” A pesquisa identificou iniciativas como um agente de IA da NVIDIA Research, que se concentra em ensinar robôs a realizar tarefas complexas utilizando métodos generativos, bem como a Eureka Labs e a Eureka AI, que melhoram a experiência do utilizador na educação e na análise de serviços ao cliente, respetivamente. No entanto, estes projetos são distintos da Euruka Tech e não devem ser confundidos com os seus objetivos ou funcionalidades. Conclusão A Euruka Tech, juntamente com o seu token $erc ai, representa um jogador promissor, mas atualmente obscuro, dentro do panorama do Web3. Embora os detalhes sobre o seu criador e investidores permaneçam não divulgados, a ambição central de combinar inteligência artificial com tecnologia blockchain destaca-se como um ponto focal de interesse. As abordagens únicas do projeto em promover o envolvimento do utilizador através da automação avançada podem diferenciá-lo à medida que o ecossistema Web3 avança. À medida que o mercado cripto continua a evoluir, as partes interessadas devem manter um olhar atento sobre os avanços em torno da Euruka Tech, uma vez que o desenvolvimento de inovações documentadas, parcerias ou um roteiro definido pode apresentar oportunidades significativas no futuro próximo. Neste momento, aguardamos por insights mais substanciais que possam desvendar o potencial da Euruka Tech e a sua posição no competitivo panorama cripto.

525 Visualizações TotaisPublicado em {updateTime}Atualizado em 2025.01.02

O que é DUOLINGO AI

DUOLINGO AI: Integrar a Aprendizagem de Línguas com Inovação Web3 e IA Numa era em que a tecnologia transforma a educação, a integração da inteligência artificial (IA) e das redes blockchain anuncia uma nova fronteira para a aprendizagem de línguas. Apresentamos DUOLINGO AI e a sua criptomoeda associada, $DUOLINGO AI. Este projeto aspira a unir o poder educativo das principais plataformas de aprendizagem de línguas com os benefícios da tecnologia descentralizada Web3. Este artigo explora os principais aspectos do DUOLINGO AI, analisando os seus objetivos, estrutura tecnológica, desenvolvimento histórico e potencial futuro, mantendo a clareza entre o recurso educativo original e esta iniciativa independente de criptomoeda. Visão Geral do DUOLINGO AI No seu cerne, DUOLINGO AI procura estabelecer um ambiente descentralizado onde os alunos podem ganhar recompensas criptográficas por alcançar marcos educativos em proficiência linguística. Ao aplicar contratos inteligentes, o projeto visa automatizar processos de verificação de habilidades e alocação de tokens, aderindo aos princípios do Web3 que enfatizam a transparência e a propriedade do utilizador. O modelo diverge das abordagens tradicionais de aquisição de línguas ao apoiar-se fortemente numa estrutura de governança orientada pela comunidade, permitindo que os detentores de tokens sugiram melhorias ao conteúdo dos cursos e à distribuição de recompensas. Alguns dos objetivos notáveis do DUOLINGO AI incluem: Aprendizagem Gamificada: O projeto integra conquistas em blockchain e tokens não fungíveis (NFTs) para representar níveis de proficiência linguística, promovendo a motivação através de recompensas digitais envolventes. Criação de Conteúdo Descentralizada: Abre caminhos para educadores e entusiastas de línguas contribuírem com os seus cursos, facilitando um modelo de partilha de receitas que beneficia todos os colaboradores. Personalização Através de IA: Ao empregar modelos avançados de aprendizagem de máquina, o DUOLINGO AI personaliza as lições para se adaptar ao progresso de aprendizagem individual, semelhante às características adaptativas encontradas em plataformas estabelecidas. Criadores do Projeto e Governança A partir de abril de 2025, a equipa por trás do $DUOLINGO AI permanece pseudónima, uma prática frequente no panorama descentralizado das criptomoedas. Esta anonimidade visa promover o crescimento coletivo e o envolvimento das partes interessadas, em vez de se concentrar em desenvolvedores individuais. O contrato inteligente implementado na blockchain Solana indica o endereço da carteira do desenvolvedor, o que significa o compromisso com a transparência em relação às transações, apesar da identidade dos criadores ser desconhecida. De acordo com o seu roteiro, o DUOLINGO AI pretende evoluir para uma Organização Autónoma Descentralizada (DAO). Esta estrutura de governança permite que os detentores de tokens votem em questões críticas, como implementações de funcionalidades e alocação de tesouraria. Este modelo alinha-se com a ética de empoderamento comunitário encontrada em várias aplicações descentralizadas, enfatizando a importância da tomada de decisão coletiva. Investidores e Parcerias Estratégicas Atualmente, não existem investidores institucionais ou capitalistas de risco publicamente identificáveis ligados ao $DUOLINGO AI. Em vez disso, a liquidez do projeto origina-se principalmente de trocas descentralizadas (DEXs), marcando um contraste acentuado com as estratégias de financiamento das empresas tradicionais de tecnologia educacional. Este modelo de base indica uma abordagem orientada pela comunidade, refletindo o compromisso do projeto com a descentralização. No seu whitepaper, o DUOLINGO AI menciona a formação de colaborações com “plataformas de educação blockchain” não especificadas, com o objetivo de enriquecer a sua oferta de cursos. Embora parcerias específicas ainda não tenham sido divulgadas, estes esforços colaborativos sugerem uma estratégia para misturar inovação em blockchain com iniciativas educativas, expandindo o acesso e o envolvimento dos utilizadores em diversas vias de aprendizagem. Arquitetura Tecnológica Integração de IA O DUOLINGO AI incorpora dois componentes principais impulsionados por IA para melhorar as suas ofertas educativas: Motor de Aprendizagem Adaptativa: Este motor sofisticado aprende a partir das interações dos utilizadores, semelhante a modelos proprietários de grandes plataformas educativas. Ele ajusta dinamicamente a dificuldade das lições para abordar desafios específicos dos alunos, reforçando áreas fracas através de exercícios direcionados. Agentes Conversacionais: Ao empregar chatbots alimentados por GPT-4, o DUOLINGO AI oferece uma plataforma para os utilizadores se envolverem em conversas simuladas, promovendo uma experiência de aprendizagem de línguas mais interativa e prática. Infraestrutura Blockchain Construído na blockchain Solana, o $DUOLINGO AI utiliza uma estrutura tecnológica abrangente que inclui: Contratos Inteligentes de Verificação de Habilidades: Esta funcionalidade atribui automaticamente tokens aos utilizadores que passam com sucesso em testes de proficiência, reforçando a estrutura de incentivos para resultados de aprendizagem genuínos. Emblemas NFT: Estes tokens digitais significam vários marcos que os alunos alcançam, como completar uma seção do seu curso ou dominar habilidades específicas, permitindo-lhes negociar ou exibir as suas conquistas digitalmente. Governança DAO: Membros da comunidade com tokens podem participar na governança votando em propostas-chave, facilitando uma cultura participativa que incentiva a inovação nas ofertas de cursos e funcionalidades da plataforma. Cronologia Histórica 2022–2023: Conceituação O trabalho preliminar para o DUOLINGO AI começa com a criação de um whitepaper, destacando a sinergia entre os avanços em IA na aprendizagem de línguas e o potencial descentralizado da tecnologia blockchain. 2024: Lançamento Beta Um lançamento beta limitado introduz ofertas em línguas populares, recompensando os primeiros utilizadores com incentivos em tokens como parte da estratégia de envolvimento comunitário do projeto. 2025: Transição para DAO Em abril, ocorre um lançamento completo da mainnet com a circulação de tokens, promovendo discussões comunitárias sobre possíveis expansões para línguas asiáticas e outros desenvolvimentos de cursos. Desafios e Direções Futuras Obstáculos Técnicos Apesar dos seus objetivos ambiciosos, o DUOLINGO AI enfrenta desafios significativos. A escalabilidade continua a ser uma preocupação constante, particularmente no equilíbrio dos custos associados ao processamento de IA e à manutenção de uma rede descentralizada responsiva. Além disso, garantir a criação e moderação de conteúdo de qualidade num ambiente descentralizado apresenta complexidades na manutenção dos padrões educativos. Oportunidades Estratégicas Olhando para o futuro, o DUOLINGO AI tem o potencial de aproveitar parcerias de micro-certificação com instituições académicas, proporcionando validações verificadas em blockchain das habilidades linguísticas. Além disso, a expansão cross-chain poderia permitir que o projeto acedesse a bases de utilizadores mais amplas e a ecossistemas de blockchain adicionais, melhorando a sua interoperabilidade e alcance. Conclusão DUOLINGO AI representa uma fusão inovadora de inteligência artificial e tecnologia blockchain, apresentando uma alternativa focada na comunidade aos sistemas tradicionais de aprendizagem de línguas. Embora o seu desenvolvimento pseudónimo e o modelo económico emergente tragam certos riscos, o compromisso do projeto com a aprendizagem gamificada, educação personalizada e governança descentralizada ilumina um caminho a seguir para a tecnologia educativa no domínio do Web3. À medida que a IA continua a avançar e o ecossistema blockchain evolui, iniciativas como o DUOLINGO AI poderão redefinir a forma como os utilizadores interagem com a educação linguística, empoderando comunidades e recompensando o envolvimento através de mecanismos de aprendizagem inovadores.

454 Visualizações TotaisPublicado em {updateTime}Atualizado em 2025.04.11

Discussões

Bem-vindo à Comunidade HTX. Aqui, pode manter-se informado sobre os mais recentes desenvolvimentos da plataforma e obter acesso a análises profissionais de mercado. As opiniões dos utilizadores sobre o preço de AI (AI) são apresentadas abaixo.

Categorias populares

Market Analysis3,034 itens de notícias