AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍DeepSeek R1最特立独行


来源:竞技宝app官网入口下载
发布时间:2025-09-02 23:27:34

  【新智元导读】AI能像科幻电影中的先知相同猜测未来吗?一个名为「Prophet Arena」的全新基准测验,正通过猜测实在国际事情来评价AI的「预言」才能。

  以ChatGPT为代表的AI,则能够精确的通过曩昔的语料来「猜测下一个Token」。

  那问题来了,AI能不能像先知相同,从全国际的凌乱信息里找出蛛丝马迹,精确地猜测未来呢?

  在昨夜的男篮亚洲杯冠军争夺战中,中国男篮虽以1分之差惜败澳大利亚,但已是近十年来的最好成果!

  信任绝大部分人都不会猜到这个比分,那么,AI能否根据中国队此前的体现,到呢?

  更进一步的,AI能否像拉普拉斯妖相同,在获取了当下国际的全部信息后,精确猜测未来的全部?

  假如它能在某一瞬间知道国际中全部粒子的方位与速度,而且彻底了解自然规律。

  今日要介绍的Prophet Arena便是一个通过实时更新的实在国际猜测使命来评价AI体系猜测智能的基准测验。

  把商场共同、自动化猜测、信息收拾和社区洞悉结合起来,构成更强的全体猜测才能

  为「人机协作」而生:你能够给AI供给线索,看看它的猜测怎么改变;AI也会把它的考虑进程告知你。

  直面实在国际:AI的猜测直接与实在的投注决议计划挂钩,体现好的模型真的能在虚拟商场里赚到钱。

  Prophet Arena以实时猜测商场事情为依托,初次建立了一个无法「刷题」的动态基准。

  Prophet Arena从像Kalshi和Polymarket这样的猜测商场渠道选择抢手、多样且周期性的实在事情作为考题。

  Kalshi是一家美国的金融买卖所和猜测商场渠道,是美国第一个受美国产品期货买卖委员会(CFTC)监管的、专心于买卖「事情成果」的买卖所

  AI模型们使用搜索引擎,像侦察相同搜集关于某个事情的新闻报道,收拾成一份精粹的「情报简报」。一起,也会把其时的商场行情报价(能够看作是大众的团体才智)放进去。

  拿到相同的情报后,每个AI模型都要提交一份具体的「猜测陈述」:对全部或许的成果给出一个概率散布,并附上长篇大论的理由,解说自己为什么这么看。

  事情完毕,成果揭晓。会用一套专业的目标来评价AI的猜测到底有多准,然后更新在一个实时排行榜上。

  排行榜主要看两个目标:一个是衡量精确度和校准度的Brier分数(越高越好),另一个是模仿实在投注的均匀报答(看谁能挣钱)。

  除了上述两个中心目标外,Prophet Arena还采用了受统计学和心思丈量建模启示的高档评价办法,如项目反应理论(Item Response Theory,IRT)和广义Bradley-Terry(BT)模型。

  在Brier分数不高(0.3-0.5分)的区间里,反而诞生了许多报答率惊人的猜测。

  比方一场温布尔登网球赛,赛前商场共同以为选手保罗有84%的胜率,甚至在开赛前一度攀升至95%。

  正是这细小的差异,让模型在下注时,以为押注对手奥夫纳取胜的「性价比」更高。

  你看,AI并没有精确猜测到胜者,所以它的精确度分数(Brier分数)很一般。

  这说明,成为一个精确的预言家和成为一个挣钱的投资者,是两种不彻底相同的技术。

  为了讨论这一点,查看了每个Brier得分区间的模型构成,每个模型用不同的色彩标明。

  绝大多数LLM在猜测时倾向于与干流信息保持共同,因而大部分猜测会集在高Brier分数区间。

  比方在「AI监督管理法规会在2026年前成为联邦法令吗?」这个事情上,商场以为或许性只要25%。

  激进派代表Qwen3:它看到各种法案都在推动,觉得气势很猛,直接给出了75%的超高概率。

  保守派代表Llama 4 Maverick:它也看到了相同的信息,但以为立法进程杂乱又缓慢,所以只给出了比商场略高一点的35%。

  AI的猜测并非随机,它们有着结构化的推理和共同的危险偏好,就像人类专家也会有观念不合相同。

  例如在圣地亚哥与多伦多的美国工作足球大联盟竞赛中,o3-mini在1美元的投注上获得了9美元的报答。

  根据商场数据和新闻来源,o3-mini猜测多伦多取胜的概率为30%,而商场隐含的概率仅为11%(价格=0.11)。

  虽然多伦多是不被看好的一方,但AI辨认到了正的期望值,并因为其最大的优势比率30%/11%≈3。

  它总能找到一些商场没注意到的细微差别,然后下注在那些「性价比」超高的选项上。

  就像在上面那场足球赛中,商场以为多伦多队只要11%的胜算,但o3-mini通过剖析以为有30%。

  所以,在猜测的国际里,成功的要害不在于每次都对,而在于你对的时分能带来多大的报答。

  数值越低(色彩越深的单元格)标明概率推理更挨近共同;数值越高(色彩越浅的单元格)则标明不合越大。

  其间一个杰出的模型是DeepSeek R1,它的猜测成果常常与其他模型截然不同。

  与Kimi K2、o3和Llama 4 Maverick等模型比较,它的L2间隔一直高于0.7,这标明其或许采用了不同的校准方法或内部决议计划机制。

  在频谱的另一端,比如Grok-4和GPT-5之类的模型常常作出高度共同的猜测,L2间隔一般低于0.3。

  换句话说,这张图展现了AI猜测的多样性:有些模型构成「团体共同」、有些模型像「特立独行的贰言者」。

  想象,AI体系将成为猜测商场的活跃参与者,将人类的直觉洞悉与AI强壮的数据剖析才能相结合,终究提高整个社会的团体远见,为那些高危险的决议计划供给更牢靠的根据。

  究竟,假如说言语模型的下一步是猜测下一个词,那么它的终极形状,或许便是猜测这个实在国际的下一个事情。