182tv在线播放,九九久久精品,欧美日韩一级二级

當前位置 : 網站首頁 / 事件 > 詳情頁

誰最“聰明”：大模型為何需要測評

2023-08-21 21:12:44來源：北京商報

近日由北京商報社、深藍媒體智庫主辦的“大模型見真章”AI主題沙龍上，360智腦產品資深專家葛燦輝在做“360智腦認知型通用大模型”的產品分享時，引用了三個測評結果，其中一個來自第三方評估機構SuperCLUE。

聽到這個引用，臺下元語智能聯合創始人兼COO朱雷笑了笑。朱雷的另一個身份，便是SuperCLUE聯合發起人。葛燦輝顯然不知道這一層關聯。

國產大模型競賽如火如荼，好像每一個大模型都很牛，但具體牛在哪又始終縹緲，由此大模型測評應運而生。但這又可能注定是一件要“燒情懷”的事，它同樣面臨著“開源”還是“閉源”的兩難選擇，和刷題與競價排名的諸多爭議。

(資料圖)

武林大會

國產大模型又多一份測評，這次的狀元是訊飛星火。近日，《麻省理工科技評論》從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力，最終，訊飛星火認知大模型V2.0以81.5分的成績登頂，榮獲“最聰明”的國產大模型稱號。

8月15日，科大訊飛發布“訊飛星火認知大模型V2.0版本”，科大訊飛董事長劉慶峰介紹，從業界參考測試集上的效果對比來看，星火V2.0基于Python和C++進行代碼寫作能力已高度逼近ChatGPT，差距僅為1%和2%。

劉慶峰說，到10月24日星火大模型代碼能力全面超越ChatGPT，明年上半年將正式對標GPT4。

訊飛星火像是一個縮影。過去這段時間，大模型頻繁更新讓人眼花繚亂，動輒千億的參數、各種專業術語也讓人不明覺厲。但人們似乎很難找到一把統一的尺子，公平、客觀、直觀地感知大模型真正的效果，而不被紛雜的信息流所蒙蔽。

天使投資人、資深人工智能專家郭濤對北京商報記者分析稱，“大模型是一個非常復雜的系統，它由大量的數據和算法組成，在訓練和推理過程中需要考慮很多因素。對大模型進行測評可以幫助我們更好地了解模型的性能和特點、評估價值和意義、局限性和潛在風險等，從而為大模型的發展和應用提供有力支持”。

深度科技研究院院長張孝榮將測評形容為一場“武林大會”，要試試各家身手。他對北京商報記者分析稱，大模型涉及到龐大的參數和復雜的算法，對于性能和效果的評估十分重要。通過測評可以大致地了解大模型的性能、穩定性、準確性等內容，為用戶選擇合適的大模型提供參考。

測評開始補位。今年3月，真格基金以投資者的身份入場，設計了一套大模型測試集Z-Bench。高校也是測評的中堅力量，例如清華大學、上海交通大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval。

有媒體報道，5月以來，10多家國內外多家調研機構、權威媒體和高校等發布大模型評測報告，包括新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》、天津大學和信創海河實驗室發布的《大模型評測報告》、國際數據公司IDC發布的《AI大模型技術能力評估報告，2023》等。

難統一的標準

當該有測評成為共識，迎面而來的下一個問題就是，我們需要一個怎樣的測評。

《麻省理工科技評論》提到，評測使用的測試集包含600道題目，覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類，126個二級分類，290個三級標簽，并針對問題的豐富性和多樣性做了優化。

此前IDC則在測評中將大模型分為三層，服務生態、產品技術以及行業應用，對每一層的能力進行測評，主要考察指標為算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業以及配套服務和大模型生態等，具體包括36項細顆粒度的評估標準。

對于大模型測評的必要性，朱雷提到，模型測評基準是通用人工智能的基石，沒有測評就意味著沒有目標，很難準確地判斷究竟哪些做得好哪些做得不好，同時對于AI的安全性也無法把控。從國際視角上看，對于大模型的測評也是沒有絕對標準的，因為大模型發展太快了。但在國內要做出一個客觀公正的評測基準，也會遇到很多阻力。

北京市社會科學院副研究員王鵬對北京商報記者分析，目前大模型尚屬新興事物，國際上還沒有一個覆蓋面非常廣、能夠得到大家公允的評估方法或整套指標體系，需要加強國際合作，形成廣泛共識。

“但這也會面臨一定的問題，即大模型本身類型繁多，通用還是專用、垂類還是跨行業、偏技術還是偏應用等區別也會帶來一定的阻礙，因此更需要權威機構加強研究，盡快形成共識，促進技術進步和行業發展。”王鵬稱。

在他看來，一個合格的測評，應該由四個維度組成。首先是技術本身，包括穩定性、效率、效果等；其次是與行業的結合，在行業應用中是否有效果、成本是否可控、是否能夠形成商業閉環；再次還要考慮是否安全可控；最后要從社會及行業認知角度，了解其在行業中的關注度，畢竟“酒香也怕巷子深”。

張孝榮也提到，由于大模型涉及的領域和應用非常廣泛，不同領域、不同應用的大模型需要關注的指標和評估方法不盡相同。因此，針對具體應用領域和需求，不同機構和組織可能會提出不同的評估標準和方法?！氨M管沒有統一的標準，但測評的意義在于提供了一種評估和比較不同大模型性能和效果的方法，幫助用戶選擇適合自己需求的大模型?！?/p>

測評還是營銷

“測評的意義側重于營銷推廣”。張孝榮還提到了一個觀點。

葛燦輝在引用SuperCLUE測評結果的時候，提煉出了一句總結：“360智腦”多項能力位列國產大模型第一?！堵槭±砉た萍荚u論》的測評報告，傳播最多的也是“訊飛星火被評為中國‘最聰明’的大模型”。

更早些時候，刷屏的是百度。比如IDC的大模型報告中，“百度文心大模型3.5獲多項滿分”，清華大學新聞與傳播學院沈陽團隊發布的《大語言模型綜合性能評估報告》中，百度文心一言在三大維度20項指標中綜合評分國內第一，超越ChatGPT。

每每涉及榜單，榜首歸誰總是容易成為話題中心，從這個角度上看，測評本身或許就帶著些營銷的天然屬性。但也正是如此，延伸出了一些不容忽視的問題。

“SuperCLUE出6月榜單的時候，第一時間就有人指責我們是不是收了360的錢，但事實是，直到這次沙龍，我們與360智腦產品負責人才有了第一次接觸。”朱雷如此說道。

事實上，大模型測評同樣面臨著“開源”和“閉源”的兩難選擇。朱雷稱，大模型測評題集也有開源閉源之分，但開源的題目就會面臨受試者提前訓練進而刷分“打榜”的可能，而閉源的題目就會陷入到是否有暗箱操作乃至競價排名的爭議。

朱雷表示，SuperCLUE還是選擇了閉源的測評路線，但不是任何機構都可以閉源的，之所以公眾較為相信SuperCLUE的測評結果，主要還是基于過去四年CLUE社區對中文語言模型的貢獻和公信力。

據了解，CLUE開源社區發起于2019年，旨在建立科學、客觀、中立的AI評測基準，過去幾年CLUE社區分別建立了ZeroCLUE、FewCLUE等知名的語言模型評測基準，又于今年5月發布首個中文通用大模型綜合性評測基準SuperCLUE。

SuperCLUE分為SuperCLUE-Opt、SuperCLUE-LYB瑯琊榜以及SuperCLUE-Open三個不同維度的評測基準，相輔相成。其中SuperCLUE-Opt是首個中文通用大模型綜合性評測基準，聚焦客觀題；SuperCLUE-Open為首個中文通用大模型綜合性多輪開放域評測基準，聚焦主觀題；SuperCLUE-LYB瑯琊榜的定位則是中文大模型匿名對戰平臺，讓用戶參與投票。據介紹，SuperCLUE目前也是中文AI領域最完整的綜合性測評基準，同時也是罕見的“閉卷”考試。

“我們暫時還沒有找到折中的方法，所以決定先‘保密’，大模型廠商不知道我出了什么樣的問題，自然不好刷分。至于‘保密’帶來的黑盒化，目前來看還是一個兩者不可兼得的問題，但我們堅信自己的第三方中立性，評測的結論也是十分科學的?！敝炖追Q。

SuperCLUE以“月考”形式進行，每個月也會更新迭代，包括補齊缺失的維度、更新現有的測試題等?！艾F階段我們仍選擇以閉源的形式把測評摸清楚，建立比較健全的標準后可能會選擇部分開源，即便如此我們也會保證每次測評前廠商無法拿到相關的測試題，等到測試結果公布后再將題目放出，這樣外界可以根據題目進行復現，或許會減弱類似于競價排名的爭議?！敝炖追Q。

王鵬分析稱，任何一項評估或排名，都可能面臨一些問題，但這其實相當于一個“否定之否定”的過程。首先評估體系本身并不是完美的，需要不斷優化提升，應對大家可能產生的質疑。

其次，專業的評測機構、技術機構等，也要注重自己的口碑，建立完善的體系，儲備豐富的經驗，有較好的技術團隊和技術儲備，作出更加客觀公允、公平公正的評價?！耙驗橐坏┏霈F‘人情分’等問題，不僅會影響自己的聲譽，也不利于行業的未來發展”，王鵬稱。

（文章來源：北京商報）

標簽：

電腦

電腦任務欄點擊無反應怎么辦？電腦任務欄一直轉圈圈怎么辦？
電腦任務欄點擊無反應怎么辦方法一、卸載補丁1、出現這個原因可能是某個windows10系統補丁更新，導致的...

· 2023-07-05 08:28:03
電腦打字亂碼怎么辦?串口顯示亂碼的原因有哪些?
電腦打字亂碼怎么辦?1、在桌面上新建一個名為TEST的文本文檔并打開。2、我們在文本文檔中輸入你好兩個字...

· 2023-07-05 08:25:55
臺式機或筆記本攝像頭不顯示怎么辦？電腦彈窗提"無法定位序數"怎么辦?
臺式機或筆記本攝像頭不顯示怎么辦攝像頭黑屏問題解決方法：1、檢查攝像頭是否損壞，如果您的攝像頭是內...

· 2023-07-05 08:23:32
造成電腦死機的原因有什么?u盤不識別怎么辦？
造成電腦死機的原因有什么?造成電腦死機的原因有什么?(附解決辦法)1、高溫問題特別是在夏天，外界溫度本...

· 2023-07-05 08:20:36
電腦網絡適配器有感嘆號怎么辦?讀卡器插電腦讀取失敗怎么辦？
電腦網絡適配器有感嘆號怎么辦?解決方法：方法1、右鍵點擊驅動程序，然后選擇卸載，卸載之后再重新啟動...

· 2023-07-05 08:18:20