91系列在线播放_久久精品国产秦先生_校园春色 亚洲_99精品视频在线观看_久久久久无码精品国产_精品久久久久久亚洲精品 _不卡视频在线看_国产成人精品综合_91高潮大合集爽到抽搐_国产一区二区无遮挡_亚洲欧洲国产综合_亚洲成人av片在线观看

登錄
首頁 > 朗逸汽車 > 全球首個科研LLM競技場上線!23款頂尖模型火拼:o3奪冠,DeepSeek第四

全球首個科研LLM競技場上線!23款頂尖模型火拼:o3奪冠,DeepSeek第四

發布時間:2025-07-12 13:26:52

 最近,Ai2耶魯NYU聯合推出了一個科研版「Chatbot Arena」——SciArena。全球23款頂尖大模型火拼真實科研任務,OpenAI o3領跑全場,DeepSeek緊追Gemini擠入前四!不過從結果來看,要猜中科研人的偏好,自動評估系統遠未及格。

如今,用AI大模型輔助寫論文早已成為科研工作者的家常便飯。

ZIPDO 2025教育報告顯示,AI已經無縫融入70%的研究實驗室,并在五年內推動相關科研論文數量增長了150%。

AI在輔助科研的路上一路狂飆,但一個關鍵問題卻長期懸而未解:

「大模型科研能力究竟怎么樣?」

傳統benchmark靜態且片面,難以衡量科研任務所需的上下文理解與推理能力。

為此,Ai2聯合耶魯大學和紐約大學推出了科研界的Chatbot Arena——SciArena,正式開啟科學智能的「擂臺賽」時代!

論文鏈接:https://arxiv.org/pdf/2507.01001

目前,已有23個最前沿的大語言模型登上SciArena的擂臺,涵蓋OpenAI、Anthropic、DeepSeek、Google等巨頭產品。

其中,OpenAI o3斷崖式領先,坐上了科學任務的頭把交椅,在所有科學領域都穩居第一,輸出的論文講解也更有技術含量。

其他模型在不同領域各有千秋:

例如Claude-4-Opus的醫療健康知識很強,而DeepSeek-R1-0528在自然科學表現搶眼。

值得一提的是,SciArena剛發布沒多久就得到了Nature的特別報道,并被盛贊為「解釋大模型知識結構的新窗口」。

下面我們就來看看,評估基礎模型科研能力,SciArena究竟靠譜在哪里?

SciArena:科研AI新「試金石」

SciArena是首個專為科學文獻任務量身定制的大模型「開放式評估平臺」。

在這里,科研人員可以對不同基礎模型處理科學文獻任務的表現進行比較和投票。

團隊引入了Chatbot Arena式的眾包、匿名、雙盲對決機制,用真實科研問題來驗貨大模型。

SciArena專門針對科學探究的復雜性與開放性進行了優化,解決通用基準測試在科研場景中「失效」的問題。

該平臺主要由三大核心組件構成:

  • SciArena平臺: 科研人員在此提交問題,并「同臺對比」查看不同基礎模型的回復,選出自己更偏好的輸出。

  • 排行榜: 平臺采用Elo評分系統對各大模型進行動態排名,從而提供一份實時更新的性能評估報告。

  • SciArena-Eval: 基于SciArena平臺收集的人類偏好數據構建的元評估基準集,其核心目標是檢驗用模型來猜測人類偏好的準確性。

對決背后:評測機制大揭秘

從提問到投票:SciArena評估全流程

SciArena的工作流程包括檢索論文、調用模型回復、用戶評估三個環節。

與通用問答相比,科研問答最大的壁壘在于要以嚴謹的科學文獻為依據。

為了確保檢索信息的質量與相關性,團隊改編了Allen Institute for AI的Scholar QA系統,搭建了一套先進的多階段檢索流水線。

該流水線包含查詢分解、段落檢索和結果重排序等多個步驟。

收到用戶提交的問題后,平臺啟用流水線,檢索相關的科學論文作為上下文。

隨后,平臺把上下文和用戶的問題合在一起,同時發送給兩個隨機選擇的基礎模型。

兩個模型各自生成內容詳實、附帶標準引文的長篇回復。

平臺會統一處理兩份回復,變成格式一致的標準化純文本,以免用戶「認出」模型的回答風格。

最后,用戶對這兩個純文本輸出進行評估,并投票選出自己偏好的答案。

值得注意的是,SciArena的注意力主要集中于可橫向評估的「通用基礎模型」。

至于OpenAI Deep Research等定制型智能體或閉源研究系統,則不在平臺的考慮范疇內。

102位專家,13000票

要想評測準,數據必須信得過。

SciArena團隊對數據的把關嚴格得令人發指。

在平臺上線的前四個月里,他們收集了不同科研領域的102位專家的13000多次投票。

這102位專家絕非隨意參與的路人,而是科研一線的在讀研究生,人均手握兩篇以上論文。

而且,所有的標注員都接受了一小時的線上培訓,確保評價標準一致。

再加上盲評盲選機制,SciArena的每一條評估結果都有據可依。

在SciArena的高標準和嚴要求下,平臺的標注數據自我一致性極高(加權科恩系數κ=0.91),標注者間一致性也達到了較高水平(κ=0.76)。

這13000多次投票為SciArena平臺打下了值得信賴的評估基礎。

最強AI,猜不透科研人的心

在SciArena平臺上,研究團隊基于元評估基本集SciArena-Eval,測試了「模型評模型」的自動評估方法:

給一個評估模型一條科研問題和兩個模型的回答,讓它猜哪個更可能被人類選中。

結果很扎心。

哪怕是表現最好的o3模型,準確率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,幾乎跟「擲硬幣選答案」的準確率差不多。

對比一下通用領域,像AlpacaEval、WildChat這些基準的評估模型,準確率都能跑到70%以上,相比之下,科研任務顯得難多了。

看來,「讓模型理解科研人的偏好」并非易事。

不過也不是全無亮點。

加入了推理能力的模型,在判斷答案優劣上普遍表現更好。

例如,o4-mini比GPT-4.1高出 2.9%,DeepSeek-R1也小勝自家模型DeepSeek-V3。

這說明,會推理的AI更懂科研問題的本質。

研究團隊表示,SciArena-Eval未來有望成為科研AI評估的「新標準」。

它能幫我們看清AI到底有沒有真正「讀懂」科研人的心思。

Copyright 2019-2024 我要98 版權所有  京ICP備2019123967號
久久久亚洲影院你懂的| 久久久精品中文字幕| 无码av免费精品一区二区三区| 日韩精品最新网址| 久久久午夜影院| 91成人免费看| 久久午夜老司机| 五月天综合婷婷| 一区二区三区在线播| 欧美日韩在线中文| 黄色成人av在线| 污污免费在线观看| 国产视频久久久久久久| 亚洲成人黄色av| 亚洲欧美日韩中文在线| 精品国产999久久久免费| 久久视频在线直播| 日韩欧美视频一区二区三区| 欧美 日韩 国产精品| 久久久三级国产网站| a级片一区二区| 亚洲一区二区三区四区的| 17c丨国产丨精品视频| 91香蕉视频在线| 欧美二区在线看| 成人夜色视频网站在线观看| 亚洲精品不卡| 欧美韩国一区二区| 欧美日韩黄色一级片| 亚洲精品免费在线| 成人在线免费观看视频网站| 久久精品免费观看| 国产精品久久精品国产| 国产在线视频精品一区| 久久综合给合久久狠狠色| 国产69精品久久久久毛片| 性做爰过程免费播放| 亚洲色图另类专区| 99精品999| 日韩欧美二区三区| www.毛片.com| 国产精品亚洲激情| 美女看a上一区| 99精品一区二区三区的区别| 亚洲va在线va天堂| 熟妇高潮精品一区二区三区| 亚洲毛片在线观看| 亚洲天堂手机版| 亚洲在线观看视频| 久久99国产精品免费网站| 裸体裸乳免费看| 欧美午夜无遮挡| 日韩欧美在线视频播放| 亚洲国产中文字幕在线视频综合| 性久久久久久久久久久| 久久久国产一区二区| 高潮一区二区三区乱码| 亚洲韩国在线| 欧美日韩亚洲精品内裤| 欧美日韩精品在线观看视频| 国产精品视频区1| 久久综合久久鬼色中文字| 欧美成人精品一区二区综合免费| 中日韩美女免费视频网址在线观看 | 在线播放av网址| 久久精品国产欧美激情| 久久婷婷av| 欧美精品无码一区二区三区| 亚洲精品在线视频| 香港三日本三级少妇66| 国产青青在线视频| 欧美一区二区三区视频免费| 日日夜夜狠狠操| 日韩精品久久久免费观看| 亚洲人成伊人成综合网小说| 久久久精品人妻一区二区三区四| 91影视免费在线观看| 亚洲色图视频网站| 青娱乐国产盛宴| 农村寡妇一区二区三区| 91精品国产日韩91久久久久久| 一级特黄aa大片| 中文字幕日韩一区二区三区 | 久久国产一区二区三区| 国产麻豆成人精品| 国产激情av在线| 久久国产主播精品| 久久一区二区电影| 日韩网站免费观看高清| 激情综合色播激情啊| 天堂一区在线观看| 欧美自拍大量在线观看| 亚洲免费在线观看| 国产精品第5页| 69精品丰满人妻无码视频a片| 精品va天堂亚洲国产| 蜜臀a∨国产成人精品| 亚洲国产精品第一页| 国产精品尤物福利片在线观看| 成人毛片网站| 国产日韩av一区二区| 污软件在线观看| 26uuu国产在线精品一区二区| 久久精品国产亚洲av麻豆| 成人国产精品一区| 91精品国产欧美一区二区成人| 丝袜美腿亚洲综合| 91网站免费视频| 婷婷久久青草热一区二区| 社区色欧美激情 | 一区二区三区在线视频观看58| 国产一区二区播放| 欧美影院在线播放| 久久免费国产精品| 欧美日韩国产丝袜另类| 中文字字幕在线中文| 成人激情综合网| 久草国产在线视频| 警花观音坐莲激情销魂小说| 深夜福利亚洲导航| 91福利社在线观看| www.xxx麻豆| 欧美在线www| 日韩精品在线视频美女| 色综合久久久久久久久久久| 成人av免费观看| 亚洲 国产 欧美 日韩| 国产视频不卡在线| 五月婷婷之婷婷| 超碰97在线看| 国产伦精品一区二区三区四区免费| 免费91麻豆精品国产自产在线观看| 午夜欧美2019年伦理| 国产乱人伦精品一区二区在线观看| 日本学生初尝黑人巨免费视频| 亚洲av毛片在线观看| 91精品入口蜜桃| 无码人妻丰满熟妇区毛片| 激情综合色播激情啊| 久久精品视频9| 美女av免费在线观看| 欧美日韩中文字幕在线视频| 激情成人综合网| 在线免费av网| 女尊高h男高潮呻吟| 亚洲精品久久久久久久蜜桃臀| 欧美一级淫片aaaaaaa视频| 555www色欧美视频| 一区二区三区加勒比av| 成人激情文学综合网| 性xxxxbbbb| 国产91av视频| 中文字幕日韩经典| 成人涩涩小片视频日本| 亚洲狠狠婷婷综合久久久久图片| 韩国一区二区三区四区| 女性生殖扒开酷刑vk| 日本77777| 亚洲精品高清无码视频| 天天夜碰日日摸日日澡性色av| 亚洲精品一区二区毛豆| 亚洲一二三区在线| 一区二区三区视频在线播放| 日本精品一区二区| 日本在线观看一区二区三区| 欧美大香线蕉线伊人久久| 国产一级二级三级精品| 超碰97国产在线| 成人欧美一区二区三区视频xxx| 99国产盗摄| 国新精品乱码一区二区三区18| 国产精品1区2区在线观看| 久久久久久久久国产精品| 91国自产精品中文字幕亚洲| 国产精品69av| 亚洲影院在线看| 久久综合九色99| 一本—道久久a久久精品蜜桃| 日本中文字幕一级片| 欧美日韩在线中文| 伊人五月天婷婷| 人妻熟女aⅴ一区二区三区汇编| 成人黄色片在线观看| 中文字幕免费在线看| 日韩av免费播放| 久久资源在线| 亚洲成av人片在线观看无码| 一本色道久久综合亚洲aⅴ蜜桃| 久久这里只有精品6| 欧美精品久久久久久久多人混战 | 精品午夜福利视频| 青草国产精品久久久久久| 亚洲精品免费看| 日韩av电影国产| 色播五月综合网| 亚洲福利在线观看视频| 欧美伊人久久久久久午夜久久久久| 韩剧1988在线观看免费完整版| 日韩免费在线观看av| 中文字幕一区在线播放| 亚瑟在线精品视频| 中文字幕亚洲自拍| 在线观看欧美亚洲| 青青草av在线播放| 亚洲欧美日韩国产综合| 国产主播喷水一区二区| 国偷自产av一区二区三区麻豆| 99热这里只有精品99| 欧美日韩免费观看中文| 91黄在线观看| av在线播放中文字幕| 国产喂奶挤奶一区二区三区| 欧美激情亚洲自拍| 天天干天天曰天天操| 国产原创一区二区| 精品少妇一区二区三区视频免付费| 成人免费视频观看视频| 国产在线观看免费播放| 亚洲精品国产一区二| 亚洲欧美自拍一区| 潘金莲一级淫片aaaaa| 日本一区二区三区在线不卡 | 亚洲aaa视频| 久久亚洲综合av| 国产日韩欧美夫妻视频在线观看 | 国产一级av毛片| 国产精品久久久久9999吃药| 99re在线播放| 日本少妇做爰全过程毛片| 日韩欧美亚洲成人| 亚洲综合五月天| 国产专区综合网| 美日韩精品免费视频| 污污污www精品国产网站| 久久无码av三级| 国产精品欧美一区二区| 山东少妇露脸刺激对白在线| 亚洲福利视频一区| 国产系列第一页| 亚洲精品20p| 99久久婷婷国产综合精品电影| 97视频在线观看视频免费视频 | 成人一区二区免费视频| 国产一区二区不卡| 国产精品久久久久久中文字| 免费看毛片网站| 亚洲人高潮女人毛茸茸| 佐佐木明希电影| 99re在线视频这里只有精品| 91精品啪aⅴ在线观看国产| 精品视频一二三区| 欧美激情按摩在线| 精品国产视频在线观看| 欧美福利视频一区| 催眠调教后宫乱淫校园| 在线欧美日韩国产| 在线免费看v片| 亚洲高清不卡在线观看| 国语对白做受xxxxx在线中国| 国产精品欧美久久久久无广告| 视频一区二区三区在线观看| www.日韩在线| 欧美日产一区二区三区在线观看| 国产精品国产三级国产普通话蜜臀| 桥本有菜av在线| 亚洲制服丝袜av| 青娱乐精品在线| 欧美一卡2卡三卡4卡5免费| 摸摸摸bbb毛毛毛片| 国产丝袜高跟一区| 成年人视频在线免费看| 欧洲成人性视频| 无码精品人妻一区二区| 久久久久久久久久久久久9999| av在线不卡网| 日日橹狠狠爱欧美超碰| 欧美三级韩国三级日本三斤| 中文视频在线观看| 国产亚洲精品久久久| 亚洲黄色三级视频| 国产成人在线一区二区| 日韩影院免费视频| 亚洲精品乱码久久久久久蜜桃91| 国产日韩欧美电影| 深夜黄色小视频| 日韩一区二区电影在线| 国产精品丝袜一区二区| 国产成人在线精品| 超碰在线97观看| 精品视频9999| 国产色在线视频| www.久久久| 国产日产欧产精品推荐色 | 一区二区高清视频在线观看| 熟女人妇 成熟妇女系列视频| 亚洲一区二区美女| 亚洲国产午夜精品| 日韩精品一区二区三区三区免费 | 91.com在线| 午夜视频一区二区三区| 久久性爱视频网站| 国产一区二区三区三区在线观看 | 国产乱码精品一区二区三区不卡| 粉嫩欧美一区二区三区高清影视| 午夜啪啪福利视频| 香蕉成人啪国产精品视频综合网| 四虎精品一区二区| 一区二区欧美久久| 国产精品伦一区二区三区| 国产精品jizz视频| 久久久久国产一区二区三区四区| 日韩精品免费播放| 精品久久国产字幕高潮| 69亚洲精品久久久蜜桃小说| 成人久久一区二区| 久久精品在线免费观看| 欧美一区二区三区影院| 亚洲精品天天看| 亚洲免费成人在线| 伊人久久大香线蕉午夜av| 欧美性20hd另类| 久久香蕉精品视频| 91牛牛免费视频| 中文字幕在线不卡一区 | 亚洲国产精品麻豆| 成人性生活毛片| 国产精品在线看| 国产精品久久久久国产精品日日| 亚洲一区二区三区综合| 久久久久国产精品www| 大胆亚洲人体视频| 性活交片大全免费看| 久久天天躁狠狠躁夜夜躁2014| 美女免费视频一区| 亚洲一级免费观看| 日韩中文字幕视频在线| 精油按摩中文字幕久久| 好男人www社区| 最近2019中文字幕一页二页| 日本亚洲最大的色成网站www| 亚洲精品乱码久久久久久自慰 | 在线观看成人黄色| 国产乱码精品一区二区三区忘忧草 | 免费成人美女女在线观看| 91久久精品国产| 五月天亚洲精品| 91麻豆精品在线| 国产中文字幕乱人伦在线观看| 亚洲精品理论电影| 麻豆极品一区二区三区| 在线观看中文av| 久久成人精品电影| 亚洲男同1069视频| 一级特黄录像免费看| 中文字幕成人一区| 日韩久久久久久| 国产黄色片免费观看| 久久9精品区-无套内射无码| 中文字幕综合一区| 美女一区二区三区在线观看| 51自拍视频在线观看| 97久久精品人搡人人玩| 国产精品电影一区二区三区| 欧美人禽zoz0强交| 宅男av一区二区三区| 久久免费成人精品视频| 亚洲欧美另类人妖| 欧美理论片在线| 亚洲午夜精品在线| 国产欧美视频一区二区| 国产精品一区免费视频| 96日本xxxxxⅹxxx17| 特级特黄刘亦菲aaa级| 456国产精品| 成人av综合一区| 国产成人无码精品久久二区三| 国产精品久久久久久久久免费| 亚洲男女一区二区三区| 日韩a级片在线观看| 久久久久久久久久久免费视频| 性欧美xxxx交| 亚洲美女偷拍久久| 亚洲一二三在线观看| 蜜桃臀一区二区三区| 精品久久一区二区三区| 成人h动漫精品一区二区| 国产污视频在线看| 黄色影视在线观看| 欧美一区二区.| 欧美性生交大片免费| 国产乱码精品一区二区三区av | 91高清国产视频| 2014国产精品| 亚洲乱码国产乱码精品精| 久久精品亚洲精品国产欧美kt∨ | 中文字幕乱码在线观看| 美女脱光内衣内裤| 男的插女的下面视频| 91免费观看网站| 国产日韩久久| 成人av资源在线| 这里只有精品免费视频| 蜜桃av免费看| 亚洲小视频在线播放| 狠狠色综合欧美激情| 国产精品视频公开费视频| 欧美激情一区二区三区在线视频观看| 亚洲大胆人体在线| 欧美日韩一区二区三区不卡| 国产传媒欧美日韩成人|