网站地图官方微信:
网站首页 西佛镇 泉眼镇 柏梁镇 石麟镇 美原镇 坪城乡

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 27寸显示器是否有必要到4K? |

    看用途和预算。 不差钱的电影发烧友和单机游戏玩家上顶配4K(...

    查看详情>>
  • | 为什么女游泳运动员看起来大部分都是平胸? |

  • | 不用CDN就没事,用阿里云CDN就被攻击刷流量,阿里云表示证明不了就要用户买单,如何看到这种行为? |

  • | 你这辈子做过最牛的事儿是什么? |

  • | 哪些 Rust 库让你相见恨晚? |

  • | 有人说24GB和48GB内存容量是新一代电脑平台最均衡的方案,真的是这样吗?电脑内存应该如何选? |

  • | vue + tsx 的开发体验能追得上 react+tsx么? |

  • | Flutter 为什么没有一款好用的UI框架? |

  • | 淘宝为什么要提供npm镜像? |

  • | 中国军事力量有希望达到全球第一吗? |

  • | 为什么要远离社会底层? |

  • 很莫名邀请这个问题,但是很巧午觉刚睡醒我又很闲,无聊到想分析...

    2025-06-24
  • 半年后,某飞律师直播时收到一个女粉丝提问: 我爸给300W老...

    2025-06-24
  • 刚来广州的时候没经验,单位组织旅游,我画了全妆,那时候天还不...

    2025-06-24
  • 我在用Rust主要是因为公司在用Rust,虽然我个人也觉得这...

    2025-06-24

关注我们

添加微信好友,关注最新动态