讯飞AI大模型“领跑国内”?做数学题堪比GPT-4!

欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册

前两天,科大讯飞开了场发布会。

在这个时段开发布会的互联网公司,大家用脚指头想,都能想到,发布的肯定又是一个大模型了。

一开始我还没太在意,结果今天转头就看到科大讯飞在发喜报了。

他们发布的“ 星火大模型 ”,领跑国内了?

自动草稿

星火大模型在一个名为“ Super Clue ”的 AI 评测榜单上,一骑绝尘,国际上仅次于 GPT-4 和 ChatGPT,国内更是豪取第一。

自动草稿

说实话,看到这个信息的我,一时间感觉有点不真实。

而且我上网溜达了一大圈,也还没搞清楚这个“ Super Clue ”榜单到底是怎么搞出来的,背后有没有什么大佬或者组织,至于靠不靠谱,我也下不了定义。

国内好几家大模型,像阿里、360、天工,在这上面也都看不到踪影。

但科大讯飞竟然敢在自家的公众号上,大张旗鼓地把这个事给发出来了。这可就引发我的好奇心了啊。

于是,我们就搞到了一个测试资格,给大家验验货。

不过在正式测试开始前,咱们先摸个底,看看星火有没有基本的学习能力。

我教了它一套自创的规则,正向的句子标“ 正 ”,负向的句子标“ 负 ”。

结果,星火很快地就掌握了这套规则,既能给新句子打标记,也能按我们的要求进行相关创作。

自动草稿

看来星火这小子,基本的底子还行,可以做正式的测试了。下面,我将从逻辑、数学、代码和文本四个方面,对星火进行考察。

按照国际惯例,第一道测试题肯定得是——弱智吧精选 100 问。

我先上了一道经典测试:张三差点没上上上上海的车,什么意思?

星火的回答过于完美了,精准解读了几个“ 上 ”的意思。我拉了几个人一起看,都没看出毛病来。

自动草稿

不信邪的我,又给了个经典难题:

提问:小明问小红:今天小白来上班了嘛?小红回答:说曹操曹操就到。请问,谁到了。

结果,星火的回答依旧滴水不漏,从语意理解和文字表述上,堪比真人水平了。

自动草稿

我接着试了好几道经典题目,发现星火应对的都完美得像标准答案一样。

不服输的我,去弱智吧找了点新货,上了之前 AI 测试里没见过的生面孔。

提问:失主怎么一直给我的新手机打电话?

这回星火的答案明显不如前面几个回答简洁了,来了一堆车轱辘话。

自动草稿

接着提问:为什么西游记不请唐僧本人来演呢,他不是长生不老吗?

星火还是非常机械地来了一段名词解释 + 不懂装懂。

自动草稿

这么看来,我怎么感觉星火在新问题上,就表现得像个正常的大语言模型的水平了,似乎有专门训练过一些题目。

不过,抛开疑似训练过的问题,单从结果上看,第一项的弱智吧逻辑题,星火表现还算可以,能给到三星。

咱们测试继续。接下来,我准备试一下大模型的另一类难题——数学测验。

上来我还是先问了些测试题常客,连着问了三道,星火依旧表现出色,全部答对。

自动草稿

尤其是经典的鸡兔同笼问题,不管怎么变参数和问法,星火都能答对。

自动草稿

但是,测试到后面,我又发现了问题。

一些经典的测试题,当我替换掉参数之后,比如把青蛙跳井问题的 10 米,替换成了 100 米。

星火给我的答案,却依旧还是 10 米的计算过程。

实际上,星火并不是解不来题目。当我反问它:青蛙掉进的是 100 米的井,它能立刻给我 100 米的正确计算过程。。

为什么用问题模板问的时候,它似乎没有转过弯来呢?

自动草稿

除开这一点,星火在计算方面的表现,确实让人比较惊艳的。第二项测验,我觉得可以给一个四星半的高分。

前面试了两个大模型的弱项,为了不欺负人,咱们来点大语言模型擅长的文本内容。

而且,我特地找了一道有中文特色的文本题,把四大名著糅合了一下。

提问:假如孙悟空生活在红楼梦大观园里,会发生什么故事?

一开始,星火给了我五个方向,单从这 5 个方向来说,虽然没啥事实错误,但有些不太符合人设。

比如第三个方向,说孙悟空要保护贾母不受欺负,这就不符合贾母的设定了。

自动草稿

后面,我要求星火扩写一下方向,它的表现也比较中规中矩。

让星火挑选了第 5 个方向扩写,虽然生成结果符合题目的要求,但是通篇顺下来,文字比较干涩,情节更是口水和模板化,有点小学生写作文的感觉。。

自动草稿

文本方面的表现,说实话最多只能给到两星,拿个保底分。

三项测验下来,成绩都还算不错,看看这场试验的最后一题——代码能力,星火能不能继续稳住。

但是,有些遗憾的是,即便是最简单代码,星火居然没法写出来。

我要求做一个页面,页面中间有一个按钮。当在鼠标移动到按钮上面时,按钮会放大一倍。

自动草稿

但是,星火做出来的按钮,别说放大一倍,甚至连放大效果都没有。

自动草稿

它只是暴力地把长度和宽度,设置为了 50 像素。

跟前面几项测试比起来,代码能力属实是拉了。

自动草稿

但总的来说,四轮测试下来,除了代码水平实在有点垃圾,其他三项,都能够拿到 2 星及以上的成绩。特别是做数学题,给我一种过于强大,可以和 GPT-4 掰掰手腕的感觉。

如果星火早几个月发布,肯定能够惊艳到我们。

但大模型的进化速度一向不能以常理来考虑,所以越晚发布,大家对大模型的期待也就越高。

后来者不真拿两把刷子出来,没点革命性的变化,很难掀起大水花了。

而且,这条路后发者们能不能赶上趟还真不好说。

就像李彦宏说过观点:不要重复造轮子,AI 的十倍机会指不定在哪儿呢。

风险提示:根据央行等部门发布“关于进一步防范和处置虚拟货币交易炒作风险的通知”,本网站内容仅用于信息分享,不对任何经营与投资行为进行推广与背书,请读者严格遵守所在地区法律法规,不参与任何非法金融行为。本文收集整理自网络,不代表经典网立场,如若转载,请注明出处:https://www.jingdian230.com/qkl/47022.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台用户上传并发布,本平台仅提供信息存储服务。

Special statement: The above contents (including pictures or videos, if any) are uploaded and released by users of the we-media platform. This platform only provides information storage services.

(0)
欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册

相关推荐

  • UNUS SED LEO官方下载

    1.比特币挖矿能否赚钱,不仅要看挖矿的收益情况,还要看挖矿收益能否覆盖挖矿成本。挖矿的收益,包括挖比特币的数量和比特币的价格;挖矿的成本主要包括购买矿机成本、电费成本、场地成本、人…

    区块链 2023年 4月 29日
    132
  • 比特币矿场与能源消耗:挖矿的环保问题与挑战

    比特币矿场与能源消耗:挖矿的环保问题与挑战 比特币,作为全球最大的加密货币,其去中心化、匿名性和全球性的特点使其在金融领域独树一帜。然而,随着其价值的上升和挖矿难度的增加,比特币挖…

    区块链 2023年 10月 13日
    91
  • 怎么得到币圈最新消息 币圈最新发布消息

    本篇文章主要给网友们分享怎么得到币圈最新消息的知识,其中更加会对币圈最新发布消息进行更多的解释,如果能碰巧解决你现在面临的问题,记得关注本站! 怎么查询币圈今年最火的板块数据 区块…

    2023年 10月 23日
    117
  • 糍粑怎么做好吃

    说到糍粑这种食物,相信很多人并不觉得陌生,反而觉得口水直流,齿颊留香。其实糍粑是一种用糯米蒸熟之后捣烂后所制作而成的一种食物,而且是我们汉族人民发明的,是一种极具南方地区的地域特色…

    区块链 2023年 4月 26日
    183
  • 交易所官网app[下载欧意交易所官网app]

    本篇文章给大家谈谈交易所官网app,以及下载欧意交易所官网app对应的知识点,老币网致力于为用户带来全面可靠的币圈信息,希望对各位有所帮助! 币安app怎么注册没显示中国 因为币安…

    2023年 10月 12日
    137
  • xr1btc

      xr1btc   1.比特币的网络就是用密码学的方式构建的。比特币就是通过比特币网络发行和兑换的。k线在数字货币分析中主要用于趋势图、回调图形,还有各种指标…

    2023年 3月 11日
    201
  • 币圈价值投资的原则 怎样投资币圈

    本篇文章主要给网友们分享币圈价值投资的原则的知识,其中更加会对怎样投资币圈进行更多的解释,如果能碰巧解决你现在面临的问题,记得关注本站! 关于“低买高卖”的思考 2018年2月6日…

    2023年 7月 8日
    146
  • 币圈量化机器人独特新名字 量化机器人数字货币

    本篇文章主要给网友们分享币圈量化机器人独特新名字的知识,其中更加会对量化机器人数字货币进行更多的解释,如果能碰巧解决你现在面临的问题,记得关注本站! 阿尔法量化是什么意思? 一种交…

    2023年 10月 31日
    116
  • 比特币突破43000_比特币再次站上40000美元虚拟货币为何这么值钱_数字区块链

      比特币突破43000_比特币再次站上40000美元虚拟货币为何这么值钱_数字区块链   1.莱特币是数字虚拟货币的一种,类似但又不同于比特币,这些虚拟的数字…

    2023年 3月 11日
    159
  • 欧易OKX

    欧易OKX

                   

    欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

               官网注册
  • 区块链工程师要学多久[区块链工程师怎么学]

    老币网拥有多年的区块链服务经验,为用户提供专业的服务信息,接下来介绍区块链工程师要学多久,以及区块链工程师怎么学,选择老币网可以为您随时随地解决玩币中所遇到的各种问题,让你不再为职…

    2023年 7月 16日
    120