被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

jh 2个月前 (01-31)

国产厂商们针对中文语境的持续优化,也让 AI 在教育领域的应用场景更加多元,让更多人享受到AI带来的价值。

寒假作业,大概是每个年代的孩子都逃不过的宿命。

而自从“双减”政策开始落实,教育回归家庭后,家长们也开始迎来了他们的“酷刑”——为孩子们辅导作业。

相信不少人都能在网上刷到被作业整崩溃的家长,有的因为孩子心不在焉苦口婆心,有的因为孩子怎么也听不懂气到捶桌,而更多家长则因为孩子课程知识点越来越丰富,未必能很好地为孩子答疑解惑。

可以说,寒假作业让家长和孩子们都犯了难。

不过,面对这个难题,家长们可以借助当下最火的AI大模型。

目前不少国产大模型都号称自带教育功能,最关键的是,这些国产工具都可以通过网页或App免费体验,对于大部分家长们来说,使用门槛足够低

为此,笔者挑选了国内三款主流对话式大模型(讯飞星火、文心一言、通义千问)进行了多次提问,并且将他们与目前公认最强的GPT4大模型进行对比,看看他们在真实场景下辅导作业时,都有哪些表现?

国产大模型 VS GPT4

寒假说长不长,说短不短,由于中间夹杂着春节假期,大多数学生很难完整安排学习计划。

那如果我们以20天来计算,AI大模型会给孩子们安排什么样的学习计划呢?

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

(注:全文截图均按照:讯飞星火、通义千问、文心一言、GPT4进行排序)

总结:从篇幅来看,讯飞星火给出的计划非常详细(因为长度原因并未截全),并且详细到每个学科;GPT4与文心一言给出的方案内容大致相似,但前者在内容上更加丰富,而通义千问则具体到每个时间段。但总体来说,AI大模型生成的计划都过于笼统。

安排好学习计划后,下一步就是开始辅导作业了。

语数外题目实测

论语数外三门中最难的学科,大部分人可能首先会在数学上犯了难。

那么今天我们就看看AI大模型的解题能力如何?

(1)第一道是个小学数学应用题,涉及未知数和方程式。

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

总结:在使用截图时,通义千问给出了正确的方程式,但奇怪的是在计算时翻车。而其他三家大模型都因为识别数字原因列错了公式。

而在手动输入题目后,四家大模型都给出了正确答案,不过文心一言“别出心裁”使用用T代表未知数,这可能不太符合一般的教学习惯。

(2)有了应用题,几何题自然也不能错过。

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

结论:由于文心一言需要多次步骤,因此笔者并未继续操作,其他三家均给出了解题步骤。其中在观感上,还是国产大模型更胜一筹,而GPT4文字描述过多,总体来说这三家的表现都很不错。

做完数学题,让我们来几道英语题。

对于大部分家长来说,由于长期远离英语环境,词汇掌握量逐年下降,当孩子升入中学后,辅导英语就变得十分困难。

其中,长难句又是英语学习中最难的一部分,无法理解句子自然也很难选择正确答案。

就翻译来说,大部分AI大模型都可以给出准确的答案,但要做到“信达雅”,还是有一定的难度的。

(3)让我们先用一句经典的英文名句试试:

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

结论不得不说,每家英翻中都很有诗意,其中GPT4和讯飞星火给出的翻译最为对仗,不过GPT4还附带了对原句的解释,通义千问则找出了原句的出处。

(4)那么换成考试真题的长难句后,表现又如何呢?

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

结论:在这句话的翻译上,之前表现平平的文心一言这一次翻译地最为出色。而其他三家则更加贴近直译。对于学生们来说,通俗易懂的翻译或许更适合应试。

比起数学和英语,语文学科更加考验中文能力,也正是在这一部分,GPT4遇到了难题。

(5)首先来一段文言文的翻译:

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

结论或许是因为大模型在理解“白话文”和“文言文”时出现错误,目前均不支持全文翻译。在改为短句子后,翻译的准确性明显高了许多,笔者个人更偏好讯飞星火的翻译。

最后,让我们拿出“作者都觉得离谱”的现代文阅读,看看大模型们能不能读懂出题人的心。

这是一篇来自2023年全国高考的散文《给儿子》,原作者陈村,该文不仅篇幅较长,并且蕴含非常多的寓意。

(6)首先让大模型总结一下文章的内容:

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

(7)接着我们让大模型们来尝试下高考真题,看看他们是否可以理解段落背后的含义。

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

被寒假作业逼疯?实测三款主流国产大模型,哪家辅导作业最靠谱

总结:从个人主观判断,三款国产大模型在中文理解能力还是强于GPT4,不过后在理解段落的回答上,表现也称得上超出预期。

结语

从以上的实测来看,对于家长们来说,国产大模型已经足够应对孩子们的日常作业。

而国产厂商们针对中文语境的持续优化,也让 AI 在教育领域的应用场景更加多元,让更多人享受到AI带来的价值。

例如今天下午举行的星火认知大模型发布会上,科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5,多个核心能力得到全面提升,其中在数学、语言理解、语音交互能力上已经超越GPT-4 Turbo。

在发布会上,刘庆峰着重介绍了通用人工智能对教育领域的赋能,他表示:“教育是人类进步的根本,关乎每一位个体,是真正的全民刚需。”

随着大模型的全新提升,新版本在视觉问答、联想推理等方面实现了高分应对,理解更加精确,表述也更好。

除了教育领域以外,国产厂商正利用大模型赋能千行百业,把大模型技术的创造力转化为促进产业高质量发展的新质生产力,正在成为行业的共同选择。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到