搜索

被寒假作业逼疯？实测三款主流国产大模型，哪家辅导作业最靠谱

jh 2个月前 (01-31)

国产厂商们针对中文语境的持续优化，也让 AI 在教育领域的应用场景更加多元，让更多人享受到AI带来的价值。

寒假作业，大概是每个年代的孩子都逃不过的宿命。

而自从“双减”政策开始落实，教育回归家庭后，家长们也开始迎来了他们的“酷刑”——为孩子们辅导作业。

相信不少人都能在网上刷到被作业整崩溃的家长，有的因为孩子心不在焉苦口婆心，有的因为孩子怎么也听不懂气到捶桌，而更多家长则因为孩子课程知识点越来越丰富，未必能很好地为孩子答疑解惑。

可以说，寒假作业让家长和孩子们都犯了难。

不过，面对这个难题，家长们可以借助当下最火的AI大模型。

目前不少国产大模型都号称自带教育功能，最关键的是，这些国产工具都可以通过网页或App免费体验，对于大部分家长们来说，使用门槛足够低。

为此，笔者挑选了国内三款主流对话式大模型（讯飞星火、文心一言、通义千问）进行了多次提问，并且将他们与目前公认最强的GPT4大模型进行对比，看看他们在真实场景下辅导作业时，都有哪些表现？

国产大模型 VS GPT4

寒假说长不长，说短不短，由于中间夹杂着春节假期，大多数学生很难完整安排学习计划。

那如果我们以20天来计算，AI大模型会给孩子们安排什么样的学习计划呢？

（注：全文截图均按照：讯飞星火、通义千问、文心一言、GPT4进行排序）

总结：从篇幅来看，讯飞星火给出的计划非常详细（因为长度原因并未截全），并且详细到每个学科；GPT4与文心一言给出的方案内容大致相似，但前者在内容上更加丰富，而通义千问则具体到每个时间段。但总体来说，AI大模型生成的计划都过于笼统。

安排好学习计划后，下一步就是开始辅导作业了。

语数外题目实测

论语数外三门中最难的学科，大部分人可能首先会在数学上犯了难。

那么今天我们就看看AI大模型的解题能力如何？

（1）第一道是个小学数学应用题，涉及未知数和方程式。

总结：在使用截图时，通义千问给出了正确的方程式，但奇怪的是在计算时翻车。而其他三家大模型都因为识别数字原因列错了公式。

而在手动输入题目后，四家大模型都给出了正确答案，不过文心一言“别出心裁”使用用T代表未知数，这可能不太符合一般的教学习惯。

（2）有了应用题，几何题自然也不能错过。

结论：由于文心一言需要多次步骤，因此笔者并未继续操作，其他三家均给出了解题步骤。其中在观感上，还是国产大模型更胜一筹，而GPT4文字描述过多，总体来说这三家的表现都很不错。

做完数学题，让我们来几道英语题。

对于大部分家长来说，由于长期远离英语环境，词汇掌握量逐年下降，当孩子升入中学后，辅导英语就变得十分困难。

其中，长难句又是英语学习中最难的一部分，无法理解句子自然也很难选择正确答案。

就翻译来说，大部分AI大模型都可以给出准确的答案，但要做到“信达雅”，还是有一定的难度的。

（3）让我们先用一句经典的英文名句试试：

结论：不得不说，每家英翻中都很有诗意，其中GPT4和讯飞星火给出的翻译最为对仗，不过GPT4还附带了对原句的解释，通义千问则找出了原句的出处。

（4）那么换成考试真题的长难句后，表现又如何呢？

结论：在这句话的翻译上，之前表现平平的文心一言这一次翻译地最为出色。而其他三家则更加贴近直译。对于学生们来说，通俗易懂的翻译或许更适合应试。

比起数学和英语，语文学科更加考验中文能力，也正是在这一部分，GPT4遇到了难题。

（5）首先来一段文言文的翻译：

结论：或许是因为大模型在理解“白话文”和“文言文”时出现错误，目前均不支持全文翻译。在改为短句子后，翻译的准确性明显高了许多，笔者个人更偏好讯飞星火的翻译。

最后，让我们拿出“作者都觉得离谱”的现代文阅读，看看大模型们能不能读懂出题人的心。

这是一篇来自2023年全国高考的散文《给儿子》，原作者陈村，该文不仅篇幅较长，并且蕴含非常多的寓意。

（6）首先让大模型总结一下文章的内容：

（7）接着我们让大模型们来尝试下高考真题，看看他们是否可以理解段落背后的含义。

总结：从个人主观判断，三款国产大模型在中文理解能力还是强于GPT4，不过后在理解段落的回答上，表现也称得上超出预期。

结语

从以上的实测来看，对于家长们来说，国产大模型已经足够应对孩子们的日常作业。

而国产厂商们针对中文语境的持续优化，也让 AI 在教育领域的应用场景更加多元，让更多人享受到AI带来的价值。

例如今天下午举行的星火认知大模型发布会上，科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5，多个核心能力得到全面提升，其中在数学、语言理解、语音交互能力上已经超越GPT-4 Turbo。

在发布会上，刘庆峰着重介绍了通用人工智能对教育领域的赋能，他表示：“教育是人类进步的根本，关乎每一位个体，是真正的全民刚需。”

随着大模型的全新提升，新版本在视觉问答、联想推理等方面实现了高分应对，理解更加精确，表述也更好。

除了教育领域以外，国产厂商正利用大模型赋能千行百业，把大模型技术的创造力转化为促进产业高质量发展的新质生产力，正在成为行业的共同选择。

最后，记得关注微信公众号：镁客网（im2maker），更多干货在等你！

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

jh 运营

jh 运营

866篇

文章总数

最新文章

德克威尔：以创新之路，迎接智能制造时代 | 镁客 · 请讲

首款“飞行汽车”获批生产！打“飞的”即将成为现实？| 研报推荐

一年亏损70亿，英特尔做“芯片代工”有多不容易？

挖来Safari首席设计师，这款AI浏览器想搞次革命？

AI PC应该是什么样？微软搞出一个模板

更多 >