首页 > 实时讯息 >

Grok-3或许是最聪明的人工智能 但马斯克不能高枕无忧

0次浏览     发布时间:2025-02-28 15:14:00    

【CNMO科技】2月18日,马斯克旗下的人工智能公司xAI举办了一场新品发布会。此次发布会的主角是xAI公司最新研发的AI大模型——Grok 3。

在正式发布前,马斯克就曾公开放话,Grok 3是“地球上最聪明的人工智能”,其推理能力将超越包括ChatGPT和DeepSeek在内的其他领先AI模型。当然,嘴炮谁都能打,是骡子是马,还得牵出来溜溜。

惊艳亮相

在发布会上,xAI公司宣布将推出Grok 3的两个版本:功能全面的Grok-3和针对低计算场景优化的Grok-3 mini。其中,Grok-3可以为用户提供更加智能、高效的体验,其包含了全套功能如DeepSearch、Think和Big Brain等。而Grok-3 mini则通过针对低计算场景的训练,旨在满足更多场景下的应用需求。

据xAI公司分享的基准测试结果显示,Grok-3及其精简版Grok-3 mini在编码、数学问题解决以及科学推理等关键任务上的表现均优于OpenAI的GPT-4、Gemini、Claude和Deep Seek等业界知名模型。

在备受瞩目的Chatbot Arena(LMSYS)排行榜中,早期版本的Grok-3凭借出色的表现成功登顶,获得了1400分的最高分,力压Gemini 2.0 Flash Thinking、DeepSeek等强劲对手。

尽管xAI相对于谷歌或OpenAI等业界巨头而言仍算是一位新兴势力,但Grok-3所取得的这些性能数据无疑是一项令人瞩目的成就。

高效、透明与全面

在Grok-3问世后,其强大的功能和卓越的性能引发了广泛讨论。作为一名科技爱好者,我也获得了在有限时间内免费试用这款AI聊天机器人的机会。通过亲身体验,我对Grok-3有了更深入的了解和认识。

初次接触Grok-3时,其简洁而直观的用户界面给我留下了深刻印象。无论是通过移动设备上的X应用程序,还是直接在网页上访问x.com/i/grok页面,我都能轻松地与Grok-3进行交互,这对用户非常友好。

Grok-3目前提供了两个核心功能:Think和DeepSearch。Think功能为Grok-3的交互增添了推理能力,使其能够像DeepSeek的DeepThink、谷歌的Gemini 2.0 Flash Thinking Experimental以及OpenAI的o系列模型一样,为用户提供更加智能和高效的体验。而DeepSearch则相当于xAI的Deep Research工具,它为用户提供了一个强大的知识收集和处理平台,使得用户能够轻松获取所需信息。

在试用Think功能时,我感受到了Grok-3在推理方面的强大能力。我曾询问Grok-3关于微软新量子计算芯片的相关性问题,Grok-3不仅迅速给出了回答,还展示了其全面的思考过程。它不仅关注到了量子计算芯片的科学应用和潜在好处,还指出了与之相关的风险和挑战。

相比之下,我之前使用过的Gemini AI在回答类似问题时显得更为克制和学术化。虽然Gemini也提供了详细的分段细分和引用材料,但其答案往往更加抽象和理论化,使得用户难以理解和接受。而Grok-3在解释复杂术语时则采取了更加自由主义的方法,使得答案更加易于理解和接受。这种人性化的回答方式无疑会增强用户对Grok-3的好感和信任度。

在体验DeepSearch功能时,Grok-3的表现也相当出色。与Gemini Deep Research需要等待批准研究方法不同,Grok-3在我提交问题后立即开始执行任务。它不仅汇总了所有相关的知识库,还通过实时编译的数据进行推理,最终以综合报告的形式呈现给我。这种高效的处理方式让我在短时间内获得了大量有价值的信息。

值得一提的是,Grok-3在呈现答案时非常透明。我可以看到收集和寻找答案背后的详细思考过程,包括整个过程的阶段范围细分和实时进行的数据处理。这种透明度不仅增强了我对Grok-3的信任感,还有助于我更好地理解其决策逻辑和推理过程。这种开放和透明的态度无疑是Grok-3在AI领域赢得用户信任的重要因素之一。

当然,Grok-3也存在可以改进的地方。例如,在DeepSearch功能中,我无法在代理搜索开始之前编辑研究计划。这在一定程度上限制了我的灵活性,使得我无法根据实际需求对研究计划进行调整和优化。此外,虽然Grok-3在回答大多数问题时都表现得非常出色,但在某些特定领域或复杂问题上,其回答可能还不够深入和全面。这些问题虽然存在,但并不影响我对Grok-3整体性能和用户体验的认可。

竞争与挑战

尽管Grok-3的表现相当出色,但AI领域的竞争日益激烈,Grok-3仍面临着诸多挑战。在当前AI代理这一新兴领域中,Deep Research并非一枝独秀。OpenAI推出的Operator能够通过控制Web浏览杂务来代表用户执行复杂网络任务。同时,OpenAI还与多家企业达成合作,将Operator打造成具有广泛影响力的AI代理典范。

OpenAI还推出了ChatGPT插件系统,通过与多家平台的集成,进一步增强了聊天机器人的功能。相比之下,Grok-3在插件系统和合作伙伴拓展方面尚需努力。

与此同时,来自中国的DeepSeek也凭借其DeepThink思考和推理产品搅动了华尔街。目前,DeepSeek已经被多家公司所采用,在中国拥有极高的市场影响力。这些竞争对手的存在无疑为Grok-3的市场推广带来了更大的挑战和不确定性。

  • 宇树科技王兴兴:每个人都可以借助AI工具做很多事,大语言模型写代码成功率已非常高

    7月27日,在2025世界人工智能大会系列论坛之一的AI女性菁英论坛上,宇树科技创始人、首席执行官、首席技术官王兴兴表示,AI大语言模型写代码成功率已非常高,大部分软件可超过90%。他表示:“我本人偷懒很严重,很多代码懒得写,告诉AI大语言模型需要一个怎样的功能或者算法,它可以自动帮我写好。”王兴兴
    2025-07-27 16:53:00
  • 当AI具备“望、闻、问、切”,3分钟完成问诊

    近年来,在全球健康需求持续增长和AI技术落地的双轮驱动下,中医人工智能行业迎来爆发式增长。数据显示,中医AI市场规模从2020年的20亿元猛增至2025年的150亿元,年复合增长率超50%。据预测,到2027年,中国中医AI市场规模将突破1400亿元,一个技术赋能传统医学的新生态正加速形成。在202
    2025-07-27 10:11:00
  • 捷豹路虎荣膺J.D. Power榜首,新现代豪华体验将成为核心前进动力

    2025年7月24日,上海—全球领先的消费者洞察与市场研究机构J.D. Power | 君迪今日正式发布2025中国销售服务满意度研究SM(SSI),这是J.D. Power连续第26年发布这一研究,该研究重点评测了拥车期为2至6个月的燃油车新车车主对购车体验的整体满意度。销售服务满意度由购车客户满
    2025-07-25 16:26:00
  • 非遗太原|古建筑模型制作技艺:榫间万象承千年

    祁伟成向大家展示“榫卯之劲”  蝉鸣声声叩响盛夏的午后,在祁伟成置满古建筑模型的工作室里,木香与时光静静蒸腾,穿行于其间,如同漫步在微缩的华夏建筑史长廊。架上、桌上、地上,佛光寺东大殿的唐风雄浑、晋祠圣母殿的宋式巧妙、应县木塔的辽代奇绝……这些严格按照古法“扎”出的“小样”,不仅凝固了时光,更展示着
    2025-07-25 09:03:00
  • “网络身份证”已正式启用|南财合规周报(第199期)

    21世纪经济报道记者 章驰 北京报道每周,“合规周报”会盘点最近一周国外人工智能、科技竞争、个人信息保护上值得关注的动态。 本周,我们重点关注国家知识产权局进一步探索AI在专利审查中的应用;市场监管总局约谈饿了么、美团、京东三家平台企业;“网络身份证”7月15日正式启用。海外方面,英伟达计划恢复向中
    2025-07-21 08:40:00
  • 数智化赋能:推动人工智能教材体系向教学体系转化

    ◎摘 要人工智能是通用目的技术,高校在人工智能人才培养中要遵循人的认知规律,促进教材建设实现从知识图谱到能力图谱的飞跃,推动教材体系迈向教学体系。浙江大学以人工智能体系化教材建设为基础,研制和开发支撑技术,设计并实施了人工智能通识必修课、AI+X微专业等人才培养模式,实施教育教学人工智能进阶计划,探
    2025-07-17 12:20:00
  • 2026款宝骏云海SUV推迟上市,原定7月15日

    IT之家 7 月 17 日消息,2026 款宝骏云海 SUV 原定于 7 月 15 日上市,但是未能如期发布。据官方透露,因部分城市新车未能如期抵达,为确保全国等待的用户都能第一时间体验到全新的宝骏云海 2026 款,不得不推迟原定的上市时间。这款新车的外观、内饰此前已经公布,2026 款宝骏云海基
    2025-07-17 07:07:00
  • 填补国内空白!深海油气用双金属复合管试制成功

    近日,依托国家重点项目,由鞍钢股份有限公司联合国内多家单位组成的研发团队成功研发生产出国内首批深海油气用双金属冶金复合管,这项成果打破国外垄断,填补国内技术空白,为我国深海油气开发提供了关键装备支撑。近年来,随着我国油气勘探向深海延伸,深海油气输送管需求持续增长。但深海环境存在极端低温高压、高盐微生
    2025-07-15 13:25:00