大发888 制度-顶级赌场官方直营-大发888游戏技巧-澳门永利赌场詢王道下拉

首頁(yè) > 講座預(yù)告 > 正文

講座預(yù)告

首頁(yè) > 講座預(yù)告 > 正文

大模型的極限理論:解讀智能涌現(xiàn)現(xiàn)象

發(fā)布時(shí)間 : 2025-09-12 10:11    點(diǎn)擊量:

分享:
2025 9
15 報(bào)告時(shí)間 2025年9月15日(星期一)下午14:45-15:30
講座類(lèi)型 韶峰大講堂

報(bào)告題目:大模型的極限理論:解讀智能涌現(xiàn)現(xiàn)象

報(bào)告人:徐宗本 中國(guó)科學(xué)院院士  西安交通大學(xué)教授

報(bào)告時(shí)間:2025915日(星期)下午14:45-15:30

報(bào)告地點(diǎn):湘潭大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院負(fù)一樓學(xué)術(shù)報(bào)告廳

報(bào)告摘要:以大模型為特征的生成式人工智能近年來(lái)迅猛發(fā)展,正深刻影響并變革著科學(xué)技術(shù)的研究范式與工業(yè)革命進(jìn)程。按照流行的認(rèn)識(shí),大模型的能力之所以強(qiáng)大源自它可能存在的智能現(xiàn)(Intelligent Emergence)。然而,什么是智能涌現(xiàn)?是什么要素摧生了智能涌現(xiàn)?大模型在什么情況下才會(huì)出現(xiàn)智能涌現(xiàn)?對(duì)這些問(wèn)題充滿(mǎn)著疑惑和爭(zhēng)論。本報(bào)告提出一個(gè)數(shù)學(xué)框架和數(shù)學(xué)理論來(lái)對(duì)此加以解析。我們的核心思想是: 利用三元隨機(jī)函數(shù)?(N, P, ??)來(lái)度量大模型泛化性,利用 ?(N, P, ??)的極限行為/極限速度 (N, P→∞, ??→0)來(lái)度量大模型的尺度變化律(Scaling Law),并以此為基礎(chǔ)來(lái)解譯智能涌現(xiàn),這里N 是用以訓(xùn)練大模型的數(shù)據(jù)規(guī)模,P是模型尺寸(包含參數(shù)個(gè)數(shù)),??是訓(xùn)練損失達(dá)到極小的程度。我們定義“極限架構(gòu)”這一無(wú)窮維系統(tǒng)概念,說(shuō)明大模型智能涌現(xiàn)的新特征/新行為即是該極限架構(gòu)的特征和行為(其泛化能力由?(, ,0)度量)。我們提出?(N, P, ??)- ?(, ,0)的標(biāo)準(zhǔn)誤差分解,并應(yīng)用隨機(jī)逼近工具、非線(xiàn)性Lipschitz算子工具,無(wú)限維Bayes估計(jì)工具來(lái)對(duì)這些誤差進(jìn)行估計(jì)。最終,我們獲得了大模型泛化誤差的如下極限速度估計(jì):

∣?(N, P, ??)- ?(, ,0)

其中,(隨趨于無(wú)窮趨于),分別是大模型基塊的Lip數(shù)和Dahlquits數(shù),是真解的光滑性程度,是與網(wǎng)絡(luò)架構(gòu)組裝方式相關(guān)的常數(shù), 是數(shù)據(jù)的維數(shù)。

根據(jù)這一估計(jì),我們發(fā)現(xiàn): 1)大模型泛化性能與模型規(guī)模的尺度率在亞指數(shù)率與指數(shù)律之間;2)大模型泛化性能與訓(xùn)練數(shù)據(jù)規(guī)模的尺度率為亞指數(shù)率;3)當(dāng)大模型的權(quán)值最優(yōu)設(shè)定,而且其基塊滿(mǎn)足時(shí),模型規(guī)模、訓(xùn)練數(shù)據(jù)規(guī)模趨于無(wú)窮將導(dǎo)致大模型出現(xiàn)智能涌現(xiàn)。

對(duì)于線(xiàn)性大模型情形,我們進(jìn)而應(yīng)用大維隨機(jī)矩陣?yán)碚撛敿?xì)刻畫(huà)了大模型的極限行為,導(dǎo)出了模型尺寸與訓(xùn)練數(shù)據(jù)規(guī)模的最優(yōu)配置律,展現(xiàn)了大模型完全不同于小模型的統(tǒng)計(jì)學(xué)習(xí)規(guī)律。

 

 

報(bào)告人簡(jiǎn)介:

徐宗本中國(guó)科學(xué)院院士,鵬城國(guó)家實(shí)驗(yàn)室廣州基地/琶洲實(shí)驗(yàn)室(黃埔)主任、陜西國(guó)家應(yīng)用數(shù)學(xué)中心主任、大數(shù)據(jù)算法與分析技術(shù)國(guó)家工程實(shí)驗(yàn)室主任,西安交通大學(xué)教授主要從事智能信息處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)建?;A(chǔ)理論研究。提出稀疏信息處理的L(1/2)正則化理論,為稀疏微波成像提供了重要基礎(chǔ);發(fā)現(xiàn)并證明機(jī)器學(xué)習(xí)的“徐-羅奇”定理解決了神經(jīng)網(wǎng)絡(luò)與模擬演化計(jì)算中的一些困難問(wèn)題,為非歐氏框架下機(jī)器學(xué)習(xí)與非線(xiàn)性分析提供了普遍的數(shù)量推演準(zhǔn)則; 提出基于視覺(jué)認(rèn)知的數(shù)據(jù)建模新原理與新方法,形成了聚類(lèi)分析、判別分析、隱變量分析等系列數(shù)據(jù)挖掘核心算法,并廣泛應(yīng)用于科學(xué)與工程領(lǐng)域。曾獲國(guó)家自然科學(xué)二等獎(jiǎng)、國(guó)家科技進(jìn)步二等獎(jiǎng)、陜西省最高科技獎(jiǎng)、國(guó)際IAITQM 理查德·普萊斯(Richard Price)數(shù)據(jù)科學(xué)獎(jiǎng)中國(guó)陳嘉庚信息技術(shù)科學(xué)獎(jiǎng)、華羅庚數(shù)學(xué)獎(jiǎng)、蘇步青應(yīng)用數(shù)學(xué)獎(jiǎng)、吳文俊人工智能最高科技成就獎(jiǎng)等,2010年世界數(shù)學(xué)家大會(huì)上作45分鐘特邀報(bào)告。

 

 

湖南韶峰應(yīng)用數(shù)學(xué)研究院

湖南國(guó)家應(yīng)用數(shù)學(xué)中心

到家集團(tuán)

湘潭大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院

湖南省數(shù)學(xué)學(xué)會(huì)

湘潭國(guó)家高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)

湘潭市大數(shù)據(jù)和產(chǎn)業(yè)創(chuàng)新發(fā)展中心

“智能計(jì)算與信息處理”教育部重點(diǎn)實(shí)驗(yàn)室

“科學(xué)工程計(jì)算與數(shù)值仿真”湖南省重點(diǎn)實(shí)驗(yàn)室

“計(jì)算科學(xué)”湖南省科技創(chuàng)新國(guó)際合作基地

 

 

關(guān)閉

友情鏈接:

地址:中國(guó)湖南湘潭  郵編:411105

版權(quán)所有?湘潭大學(xué) (湘ICP備18021862號(hào)-2) 湘教QS3-200505-000059

湘公網(wǎng)安備 43030202001058號(hào)