深夜福利网-深夜福利网站大全,国产一区二区三区久久精品,99re6热在线精品视频播放,日韩中文字幕视频免费,影院一区二区小说性鲍视频

知名百科 >> 書(shū)生通用大模型 >> 歷史版本
編輯時(shí)間歷史版本內(nèi)容長(zhǎng)度圖片數(shù)目錄數(shù)修改原因
2024-04-29 14:23 最新歷史版本 13306 1 4
  返回詞條

書(shū)生通用大模型

“書(shū)生通用大模型”是上海人工智能實(shí)驗(yàn)室、商湯科技商湯科技、香港中文大學(xué)和上海交通大學(xué)于2021年11月17日聯(lián)合發(fā)布的新一代通用視覺(jué)技術(shù)系統(tǒng)。該系統(tǒng)旨在系統(tǒng)解決人工智能視覺(jué)領(lǐng)域的任務(wù)通用化、場(chǎng)景通用化、數(shù)據(jù)高效化等一系列瓶頸問(wèn)題?!稌?shū)生》自2021年發(fā)布以來(lái),經(jīng)過(guò)多次升級(jí),從國(guó)內(nèi)首個(gè)覆蓋各種視覺(jué)任務(wù)的通用大型模型,到包含視覺(jué)、語(yǔ)言和三個(gè)維度的大型模型體系。基于學(xué)者模型,上海人工智能實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì)獲得了CVPR 2023年最佳論文獎(jiǎng),這是近40年來(lái)中國(guó)學(xué)術(shù)機(jī)構(gòu)首次簽署論文。

在2023世界人工智能大會(huì)全會(huì)上,“學(xué)者號(hào)”升級(jí)為“學(xué)者號(hào)通用大模型系統(tǒng)”,包括“學(xué)者號(hào)多模態(tài)”、“學(xué)者號(hào)普宇”和“學(xué)者號(hào)天際線(xiàn)”三個(gè)基礎(chǔ)模型,以及首個(gè)面向大模型開(kāi)發(fā)應(yīng)用的全鏈條開(kāi)源系統(tǒng)。此后,上海人工智能實(shí)驗(yàn)室聯(lián)合中國(guó)大模型語(yǔ)料庫(kù)數(shù)據(jù)聯(lián)盟成員單位,開(kāi)源發(fā)布了“學(xué)者萬(wàn)卷”1.0多模態(tài)預(yù)訓(xùn)練語(yǔ)料庫(kù)。

目錄

發(fā)展歷史

2021年11月17日,上海人工智能實(shí)驗(yàn)室攜手商湯科技商湯科技、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布了新一代通用視覺(jué)技術(shù)系統(tǒng)“書(shū)生通用大模型”,旨在系統(tǒng)解決人工智能視覺(jué)領(lǐng)域的任務(wù)通用化、場(chǎng)景通用化、數(shù)據(jù)高效化等一系列瓶頸問(wèn)題。其技術(shù)報(bào)告《書(shū)生通用大模型:一種新的學(xué)習(xí)范式塔一般愿景》在arXiv平臺(tái)上發(fā)布。

2022年9月,在世界人工智能大會(huì)(WAIC)科學(xué)前沿全體會(huì)議期間,上海人工智能實(shí)驗(yàn)室發(fā)布了更通用的人工智能模型“學(xué)者2.0”?!皩W(xué)者2.0”的通用圖像模型基于動(dòng)態(tài)稀疏卷積網(wǎng)絡(luò),可根據(jù)不同的視覺(jué)任務(wù)自適應(yīng)調(diào)整卷積位置和組合方式,從而靈活、準(zhǔn)確地適應(yīng)不同的視覺(jué)任務(wù)?!皩W(xué)者2.0”積累了大量以中文為核心的翻譯數(shù)據(jù),提出了異步多分支訓(xùn)練技術(shù),構(gòu)建了以中文為核心的通用翻譯模型,支持161種語(yǔ)言。

2023年3月14日,商湯科技發(fā)布了多模態(tài)多任務(wù)通用大型模型“書(shū)生通用大模型(INTERN)2.5”?!皩W(xué)者2.5”擁有30億個(gè)參數(shù),通用可視化開(kāi)源平臺(tái)OpenGVLab已開(kāi)放“學(xué)者2.5”的多模態(tài)通用模型。

2023年6月7日,商湯科技、上海AI Lab聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)發(fā)布千億級(jí)參數(shù)化大語(yǔ)言模型“學(xué)者普語(yǔ)”(InternLM)?!皩W(xué)者普宇”擁有1040億個(gè)參數(shù),并在包含1.6萬(wàn)億token的多語(yǔ)言高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練。綜合評(píng)價(jià)結(jié)果顯示,“學(xué)者普語(yǔ)”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語(yǔ)種翻譯等多項(xiàng)測(cè)試任務(wù)中表現(xiàn)出色,而且綜合能力較強(qiáng),因此在綜合考試中表現(xiàn)突出,并在多項(xiàng)中國(guó)考試中超過(guò)ChatGPT,包括中國(guó)高考各科目數(shù)據(jù)集(高考)。

2023年7月6日,在2023世界人工智能大會(huì)暨科學(xué)前沿全會(huì)開(kāi)幕式上,上海人工智能實(shí)驗(yàn)室攜手商湯科技、香港中文大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、清華大學(xué)發(fā)布了全新升級(jí)的“學(xué)者通用大模型系統(tǒng)”,包括學(xué)者多模態(tài)、學(xué)者普宇、學(xué)者天際線(xiàn)三個(gè)基礎(chǔ)模型,以及首個(gè)面向大模型開(kāi)發(fā)應(yīng)用的全鏈條開(kāi)源系統(tǒng)。

2023年8月14日,上海人工智能實(shí)驗(yàn)室宣布與中國(guó)大模型語(yǔ)料庫(kù)數(shù)據(jù)聯(lián)盟成員單位合作,共同發(fā)布“學(xué)者萬(wàn)卷”1.0多模態(tài)預(yù)訓(xùn)練語(yǔ)料庫(kù)。目前(截至2023年12月18日)分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分。開(kāi)源數(shù)據(jù)總量超過(guò)2TB,包括5億多文本、2200萬(wàn)圖文文檔和1000個(gè)視頻節(jié)目,涵蓋科技、文學(xué)、媒體、教育和法律等領(lǐng)域。

基礎(chǔ)原理

通用視覺(jué)技術(shù)系統(tǒng)INTERN由七個(gè)模塊組成,包括三個(gè)基礎(chǔ)設(shè)施模塊:通用視覺(jué)數(shù)據(jù)系統(tǒng)、通用視覺(jué)網(wǎng)絡(luò)結(jié)構(gòu)和通用視覺(jué)評(píng)估基準(zhǔn),以及四個(gè)用于區(qū)分上游和下游的訓(xùn)練階段模塊。

在“書(shū)生通用大模型”的四個(gè)訓(xùn)練階段中,前三個(gè)階段位于技術(shù)鏈上游,在模型的表示普適性上下足了功夫;第四級(jí)位于下游,可用于解決各種下游任務(wù)。

第一階段重點(diǎn)培養(yǎng)“基本能力”,即讓他們廣泛學(xué)習(xí)基本常識(shí),為后續(xù)學(xué)習(xí)階段打好基礎(chǔ);第二階段是培養(yǎng)“專(zhuān)家能力”,即多個(gè)專(zhuān)家模型學(xué)習(xí)某一領(lǐng)域的專(zhuān)業(yè)知識(shí),使每個(gè)專(zhuān)家模型都能掌握該領(lǐng)域的技能并成為專(zhuān)家;第三階段是培養(yǎng)“通用能力”。隨著各種能力的整合,“學(xué)者”在所有技能領(lǐng)域都表現(xiàn)出出色的水平,并具有快速學(xué)習(xí)新技能的能力。

在循序漸進(jìn)的前三個(gè)培訓(xùn)階段中,“學(xué)者”在循序漸進(jìn)的學(xué)習(xí)過(guò)程中具有高度的通用性。當(dāng)它進(jìn)化到第四階段時(shí),系統(tǒng)將具有“遷移能力”。此時(shí),“學(xué)者”所學(xué)的通用知識(shí)可以應(yīng)用于特定領(lǐng)域的不同任務(wù),如智慧城市、智慧醫(yī)療、自動(dòng)駕駛等。,實(shí)現(xiàn)廣泛賦能。

“學(xué)者”在圖文跨模態(tài)領(lǐng)域的突出表現(xiàn)來(lái)自于視覺(jué)、語(yǔ)音和多任務(wù)建模能力的有效整合,即Intermage-G通用視覺(jué)模型、用于文本理解的超大規(guī)模語(yǔ)言預(yù)訓(xùn)練模型(LLM)和用于多任務(wù)的Uni-epider模型。

其中,Intermage-G通用視覺(jué)宏大模型可以基于動(dòng)態(tài)稀疏卷積算子自適應(yīng)地調(diào)整卷積的位置和組合,從而為多功能視覺(jué)感知提供了有力的表示。超大型語(yǔ)言模型通過(guò)在超大型富文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練來(lái)提供強(qiáng)大而可靠的文本特征。uni-epider通用任務(wù)解碼建模通過(guò)將不同模式的數(shù)據(jù)編碼到統(tǒng)一的表示空間中,將不同的任務(wù)統(tǒng)一到同一任務(wù)范式中,從而可以使用相同的架構(gòu)和共享的模型參數(shù)同時(shí)處理各種模式和任務(wù)。

此外,《書(shū)生》創(chuàng)新性地引入了任務(wù)級(jí)稀疏激活機(jī)制,使其具備高效的多任務(wù)協(xié)同能力。在主流視覺(jué)圖像分類(lèi)數(shù)據(jù)集ImageNet上,僅基于公開(kāi)數(shù)據(jù),該模型就達(dá)到了90.1%的Top-1準(zhǔn)確率。

“學(xué)者”模型可以全面覆蓋四個(gè)視覺(jué)核心任務(wù):分類(lèi)、對(duì)象檢測(cè)、語(yǔ)義分割和深度估計(jì)。在ImageNet等26個(gè)下游場(chǎng)景中,學(xué)者模型具有普適性,提高了這些長(zhǎng)尾小樣本可視化場(chǎng)景的性能。借助“學(xué)者”通用視覺(jué)技術(shù)系統(tǒng),行業(yè)能夠以極低的下游數(shù)據(jù)獲取成本快速驗(yàn)證多個(gè)新場(chǎng)景,有利于解鎖和實(shí)現(xiàn)人工智能的長(zhǎng)尾應(yīng)用。依托“學(xué)者”的特色表達(dá)能力,它還實(shí)現(xiàn)了多任務(wù)學(xué)習(xí)、小樣本學(xué)習(xí)和脫離分布檢測(cè)的能力。針對(duì)各類(lèi)細(xì)分質(zhì)檢場(chǎng)景,準(zhǔn)確率可達(dá)99.5%以上,打破了AI技術(shù)在工業(yè)質(zhì)檢領(lǐng)域大規(guī)模應(yīng)用的壁壘。

功能特性

書(shū)生多式聯(lián)運(yùn):學(xué)者多模態(tài)將語(yǔ)言、圖像、視頻等多種模態(tài)無(wú)縫融合,首次通過(guò)自然語(yǔ)言實(shí)現(xiàn)視覺(jué)任務(wù)的定義,具備多模態(tài)交互和跨模態(tài)生成能力。多模態(tài)模型擁有200億個(gè)參數(shù),支持350萬(wàn)個(gè)語(yǔ)義標(biāo)簽。學(xué)者多模態(tài)有三個(gè)核心能力:開(kāi)放世界理解、跨模態(tài)生成和多模態(tài)交互。

書(shū)生2.5的多模態(tài)通用大模型具有AIGC“從文本創(chuàng)建圖片”的能力,可以根據(jù)用戶(hù)提出的文本創(chuàng)建需求,使用擴(kuò)散模型生成算法生成高質(zhì)量、自然逼真的圖像。例如,在“學(xué)者2.5”的幫助下,它幫助自動(dòng)駕駛技術(shù)的研發(fā),并通過(guò)生成各種真實(shí)的道路交通場(chǎng)景(如繁忙的城市街道、雨天擁擠的車(chē)道、路上奔跑的狗等)來(lái)生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動(dòng)駕駛系統(tǒng)對(duì)拐角情況場(chǎng)景的感知上限。

同時(shí),它可以在自動(dòng)駕駛和家用機(jī)器人等一般場(chǎng)景中輔助完成任務(wù):在自動(dòng)駕駛和家用機(jī)器人等一般場(chǎng)景中,“學(xué)者”可以輔助處理各種復(fù)雜任務(wù)。例如,在自動(dòng)駕駛場(chǎng)景中,它可以大大提高對(duì)場(chǎng)景的感知和理解能力,準(zhǔn)確輔助車(chē)輛判斷紅綠燈、路標(biāo)等信息的狀態(tài),為車(chē)輛的決策規(guī)劃提供有效的信息輸入。例如,在“學(xué)者2.5”的幫助下,它幫助自動(dòng)駕駛技術(shù)的研發(fā),并通過(guò)生成各種真實(shí)的道路交通場(chǎng)景(如繁忙的城市街道、雨天擁擠的車(chē)道、路上奔跑的狗等)來(lái)生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動(dòng)駕駛系統(tǒng)對(duì)拐角情況場(chǎng)景的感知上限。

在自動(dòng)駕駛和家用機(jī)器人等一般場(chǎng)景中,“書(shū)生”可以輔助完成任務(wù):在自動(dòng)駕駛和家用機(jī)器人等一般場(chǎng)景中,“書(shū)生”可以輔助處理各種復(fù)雜任務(wù)。例如,在自動(dòng)駕駛場(chǎng)景中,它可以大大提高對(duì)場(chǎng)景的感知和理解能力,準(zhǔn)確輔助車(chē)輛判斷紅綠燈、路標(biāo)等信息的狀態(tài),為車(chē)輛的決策規(guī)劃提供有效的信息輸入。例如,在“學(xué)者2.5”的幫助下,它幫助自動(dòng)駕駛技術(shù)的研發(fā),并通過(guò)生成各種真實(shí)的道路交通場(chǎng)景(如繁忙的城市街道、雨天擁擠的車(chē)道、路上奔跑的狗等)來(lái)生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動(dòng)駕駛系統(tǒng)對(duì)拐角情況場(chǎng)景的感知上限。

書(shū)圣璞玉:學(xué)者普語(yǔ)是國(guó)內(nèi)首個(gè)支持8K上下文長(zhǎng)度的官方語(yǔ)言模型。學(xué)者Pu Yu擁有1040億個(gè)參數(shù),并在包含1.8萬(wàn)億token的高質(zhì)量語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。

學(xué)者普宇開(kāi)發(fā)了具有70億個(gè)參數(shù)的輕量級(jí)版本InternLM-7B,以及貫穿數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)、部署和評(píng)估五個(gè)環(huán)節(jié)的全鏈工具系統(tǒng)。在40個(gè)評(píng)估集的全維評(píng)估中,InternLM-7B表現(xiàn)出出色而均衡的性能,創(chuàng)造了7B級(jí)模型的新世界紀(jì)錄。上海人工智能實(shí)驗(yàn)室教授林達(dá)華表示:“通過(guò)開(kāi)源開(kāi)放,我們希望助力大模型的創(chuàng)新和應(yīng)用,讓更多領(lǐng)域和行業(yè)在大模型變革的浪潮中受益?!?br />

在數(shù)據(jù)鏈路方面,通過(guò)OpenDataLab開(kāi)放了包含30多種模態(tài)的5500個(gè)公共數(shù)據(jù)集,其中以自然語(yǔ)言開(kāi)放了超過(guò)10000億token的高質(zhì)量語(yǔ)料庫(kù)。在預(yù)訓(xùn)練中,面向輕量級(jí)語(yǔ)言模型的訓(xùn)練框架InternLM-Train開(kāi)源,支持從8張卡到1024張卡的并行訓(xùn)練,并提出了Hybrid-Zero的獨(dú)特技術(shù)。在微調(diào)階段,全流程微調(diào)工具開(kāi)源,支持SFT和RLHF,還支持訓(xùn)練模型進(jìn)行復(fù)雜符號(hào)計(jì)算和工具調(diào)用,通過(guò)代碼解決復(fù)雜的數(shù)學(xué)計(jì)算問(wèn)題。在部署過(guò)程中,部署推理工具鏈LMDeploy是開(kāi)源的。它支持10億到1000億個(gè)參數(shù)化語(yǔ)言模型的高效推理,其性能超越了HuggingFace、Deepspeed和vLLM等主流推理框架。在評(píng)測(cè)階段,開(kāi)放評(píng)測(cè)平臺(tái)OpenCompass上線(xiàn),支持大模型一站式全方位評(píng)測(cè),包含40多個(gè)評(píng)測(cè)集和30萬(wàn)個(gè)評(píng)測(cè)主題。通過(guò)全自動(dòng)分布式評(píng)測(cè),可以有效復(fù)現(xiàn)開(kāi)源模型的性能。

蜀圣天記:“學(xué)者天空”是全球首個(gè)城市級(jí)NeRF(神經(jīng)輻射場(chǎng))三維大規(guī)模模型,擁有千億級(jí)參數(shù),并在全球首次實(shí)現(xiàn)100平方公里城市實(shí)景的4K高精度建模和編輯。

同時(shí)支持全范圍高精度實(shí)時(shí)渲染,首次實(shí)現(xiàn)城市級(jí)NeRF百平方公里全范圍1k分辨率、30幀實(shí)時(shí)渲染、4k分辨率離線(xiàn)渲染。此外,它還支持城市級(jí)編輯、風(fēng)格轉(zhuǎn)換等功能,并提供豐富的超越和重建功能,包括城市編輯功能,如移除、構(gòu)建和旋轉(zhuǎn)城市建筑,以及調(diào)整城市風(fēng)格變化,如照明和季節(jié)。Scholar Sky提供了一個(gè)訓(xùn)練、渲染和交互的一體化系統(tǒng),并實(shí)現(xiàn)了一個(gè)覆蓋算法、算子、計(jì)算系統(tǒng)和用戶(hù)交互的城市級(jí)NeRF系統(tǒng),為訓(xùn)練、渲染、交互和應(yīng)用提供了基礎(chǔ)。

為滿(mǎn)足行業(yè)實(shí)際需求,上海AI Lab開(kāi)放了學(xué)者天空的核心算法和訓(xùn)練策略,用戶(hù)可根據(jù)自身應(yīng)用場(chǎng)景復(fù)現(xiàn)大模型能力。核心算法和模型訓(xùn)練策略是學(xué)者天空實(shí)現(xiàn)當(dāng)前能力的關(guān)鍵。在本次開(kāi)源中,學(xué)者Skyline首次公開(kāi)了多分支GridNeRF模型的核心算法及其匹配訓(xùn)練策略。在特定的場(chǎng)景中,研究人員和從業(yè)者可以使用開(kāi)源內(nèi)容來(lái)重現(xiàn)和實(shí)現(xiàn)學(xué)者Skyline相關(guān)的能力。

舒萬(wàn)圣卷:學(xué)者萬(wàn)卷語(yǔ)料數(shù)據(jù)聯(lián)盟成員的內(nèi)容積累和上海ai實(shí)驗(yàn)室的數(shù)據(jù)處理能力,“學(xué)者萬(wàn)卷”為學(xué)術(shù)界和產(chǎn)業(yè)界提供大規(guī)模多模態(tài)預(yù)訓(xùn)練語(yǔ)料。

“學(xué)者萬(wàn)卷”1.0的多模態(tài)預(yù)訓(xùn)練語(yǔ)料分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分,開(kāi)源數(shù)據(jù)總量超過(guò)2TB。其中,文本數(shù)據(jù)是從不同來(lái)源(如網(wǎng)頁(yè)、百科全書(shū)、書(shū)籍、專(zhuān)利、教科書(shū)、試題等)清洗后的預(yù)訓(xùn)練語(yǔ)料。數(shù)據(jù)總量超過(guò)5億文檔,數(shù)據(jù)規(guī)模超過(guò)1TB,涵蓋科技、文學(xué)、傳媒、教育、法律等多個(gè)領(lǐng)域。圖形數(shù)據(jù)主要來(lái)自公共網(wǎng)頁(yè),經(jīng)過(guò)處理后形成圖形交錯(cuò)文檔。文檔總數(shù)超過(guò)2200萬(wàn),數(shù)據(jù)大小超過(guò)140GB(不含圖片),涵蓋新聞事件、人物、自然景觀、社會(huì)生活等多個(gè)領(lǐng)域。視頻數(shù)據(jù)主要來(lái)自中央廣播電視總臺(tái)和上海文光集團(tuán),包括新聞、電影和其他類(lèi)型的節(jié)目圖像。視頻文件總數(shù)超過(guò)1000個(gè),數(shù)據(jù)大小超過(guò)900GB,涵蓋軍事、文學(xué)、體育、自然、真實(shí)世界、知識(shí)、視頻藝術(shù)、媒體、食品、歷史、科教等。

交互特點(diǎn) 

跨模態(tài)生成:通過(guò)聯(lián)合學(xué)習(xí),學(xué)者多模態(tài)可以實(shí)現(xiàn)模式之間的相互轉(zhuǎn)換。研究人員試圖讓學(xué)者多模根據(jù)張大千的《湖山清夏圖》創(chuàng)作一首七言絕句。驗(yàn)證結(jié)果表明,經(jīng)過(guò)聯(lián)合學(xué)習(xí),學(xué)者多模態(tài)具有良好的從圖像到文本的跨模態(tài)生成能力,在中國(guó)具有深厚的文化積淀。在生成文本的同時(shí),書(shū)生多模也給出了創(chuàng)作思路:根據(jù)畫(huà)面,確定描繪美麗的自然風(fēng)光畫(huà)面;從畫(huà)面中尋找能表達(dá)詩(shī)人思想感情的元素,如畫(huà)中的巍峨山峰、云霧繚繞、蒼松蒼松;根據(jù)元素構(gòu)思一首詩(shī);最后根據(jù)詩(shī)的節(jié)奏和格律加以完善。學(xué)者多模還特別描述了第四句的靈感來(lái)源:他借用了唐代詩(shī)人韋莊的名句“春水比天亮,畫(huà)船聽(tīng)雨眠”。

多模態(tài)交互:學(xué)者多模態(tài)繼承了上一代學(xué)者在常規(guī)預(yù)定義視覺(jué)任務(wù)中的表現(xiàn),但也創(chuàng)新了人機(jī)交互的方式。用戶(hù)可以通過(guò)光標(biāo)點(diǎn)擊、聊天等方式準(zhǔn)確傳達(dá)指令。Scholar multimodal降低了人工智能任務(wù)的門(mén)檻,并使人工智能成為可供數(shù)千人使用的生產(chǎn)工具。多模態(tài)理解、生成和交互能力正成為大模型新一輪進(jìn)化的重要方向。

書(shū)圣璞玉:上下文窗口的長(zhǎng)度很長(zhǎng):上下文窗口的長(zhǎng)度從2K增加到8K,具有理解長(zhǎng)輸入、擴(kuò)展復(fù)雜推理和進(jìn)行長(zhǎng)時(shí)間多輪對(duì)話(huà)的能力。

強(qiáng)大的多語(yǔ)言和結(jié)構(gòu)化表達(dá)能力:新模型支持20多種語(yǔ)言,還可以通過(guò)表格和圖表總結(jié)和呈現(xiàn)復(fù)雜信息。

多維度能力全面提升:在42個(gè)主流評(píng)測(cè)集上性能均有提升。

書(shū)生通用大模型書(shū)生通用大模型

數(shù)學(xué)邏輯能力強(qiáng):提高數(shù)值計(jì)算、函數(shù)運(yùn)算、方程求解等數(shù)學(xué)能力。2023年高考數(shù)學(xué)選擇題中,正確率提高了70%以上。

強(qiáng)大的安全性和對(duì)準(zhǔn)能力:它可以更可靠地遵循人類(lèi)指令,安全性也明顯提高。

蜀圣天記:從單一渲染到使用GirdNeRF的自由擴(kuò)展:

NeRF是一種新的三維重建和表征技術(shù),可以用少量數(shù)據(jù)實(shí)現(xiàn)三維重建,廣泛應(yīng)用于對(duì)象級(jí)三維建模。為實(shí)現(xiàn)城市級(jí)大規(guī)模實(shí)景建模,2021年12月,上海AI Lab首次提出CityNeRF,將不同高度的衛(wèi)星和近景影像有效融合,率先將NeRF建模技術(shù)從物體級(jí)擴(kuò)展到城市級(jí)。通過(guò)采集單個(gè)建筑物的飛行圖像,可以實(shí)現(xiàn)一定規(guī)模的真實(shí)場(chǎng)景渲染和重建。在CityNeRF的基礎(chǔ)上,上海AI實(shí)驗(yàn)室進(jìn)一步開(kāi)發(fā)了第二代CityNeRF技術(shù),即GridNeRF。

基于網(wǎng)格表示和NeRF表示相結(jié)合的GridNeRF支持模型的多層次擴(kuò)展,為大規(guī)模城市級(jí)建模奠定了技術(shù)基礎(chǔ)。第二代CityNeRF從捕捉單個(gè)建筑物擴(kuò)展到收集整個(gè)區(qū)域的細(xì)節(jié)。與第一代CityNeRF技術(shù)只能在單個(gè)建筑物周?chē)M(jìn)行渲染不同,最新技術(shù)可以實(shí)現(xiàn)在整個(gè)區(qū)域內(nèi)上下飛行,平移和穿梭,建模效率更高。

真實(shí)三維建模的新范例:基于“算法+計(jì)算系統(tǒng)+算子”的系統(tǒng)化解決思路,并通過(guò)其采用的漸進(jìn)渲染、并行訓(xùn)練和多分支策略,在實(shí)際應(yīng)用中,Scholar Sky已成為集訓(xùn)練、渲染和交互于一體的系統(tǒng),開(kāi)創(chuàng)了城市級(jí)真實(shí)場(chǎng)景三維建模的新范式。

雙枝模型結(jié)構(gòu),捕捉場(chǎng)景細(xì)節(jié);GirdNeRF由兩個(gè)分支組成,其中Grid分支將場(chǎng)景分解為地面特征平面和垂直特征軸,即將城市場(chǎng)景分解為更小的粒度,然后通過(guò)NeRF分支使用輕量級(jí)MLP網(wǎng)絡(luò)重構(gòu)訓(xùn)練視角,生成高質(zhì)量的渲染圖像。同時(shí),通過(guò)一種化整為零的策略,采用漸進(jìn)渲染的方式更好地支持大規(guī)模場(chǎng)景渲染,為無(wú)限城市場(chǎng)景的重構(gòu)提供了可能。

合理化跳轉(zhuǎn)空白:Scholar Sky可以在算法的光線(xiàn)收集階段準(zhǔn)確預(yù)測(cè)對(duì)實(shí)際重建無(wú)效的采樣點(diǎn),從而“合理化跳躍”。Scholar Sky擁有數(shù)千億個(gè)參數(shù),preamble的采樣數(shù)量和計(jì)算效率對(duì)模型的訓(xùn)練和渲染性能至關(guān)重要。而且算法模型會(huì)提前終止不必要的渲染,不僅可以更好地減少渲染計(jì)算量,提高計(jì)算效率,還可以將前導(dǎo)的采樣數(shù)量減少90%以上,降低計(jì)算復(fù)雜度和渲染成本。

平行培訓(xùn)和多分支戰(zhàn)略;在訓(xùn)練策略方面,學(xué)者天璣通過(guò)PlaneParallel和ChannelParallel模型的并行訓(xùn)練,將訓(xùn)練任務(wù)分成多個(gè)部分,并在多臺(tái)計(jì)算機(jī)上同時(shí)完成,提高了訓(xùn)練速度。同時(shí)設(shè)計(jì)了多分支模型和相應(yīng)的BranchParallel訓(xùn)練策略,將模型分成多個(gè)部分,每個(gè)部分負(fù)責(zé)處理圖像的一部分,以使模型適應(yīng)不同的場(chǎng)景和尺度。這些策略有助于減少訓(xùn)練時(shí)間和資源需求,使模型更好地理解和編輯城市場(chǎng)景,并將渲染效率提高1000倍。

舒萬(wàn)圣卷:基于語(yǔ)料庫(kù)數(shù)據(jù)聯(lián)盟構(gòu)建的語(yǔ)料庫(kù),上海AI Lab對(duì)部分?jǐn)?shù)據(jù)進(jìn)行了細(xì)粒度清洗、去重和對(duì)齊值處理,形成了多模態(tài)預(yù)訓(xùn)練語(yǔ)料庫(kù)“學(xué)者萬(wàn)卷”1.0,具有多元融合、精細(xì)加工、值對(duì)齊、易用高效四大特點(diǎn)。

在多元融合方面,“學(xué)者萬(wàn)卷”1.0包含文本、圖形、視頻等多模態(tài)數(shù)據(jù),涵蓋科技、文學(xué)、傳媒、教育、法律等多個(gè)領(lǐng)域,在訓(xùn)練和提升模型的知識(shí)內(nèi)容、邏輯推理和泛化能力方面效果顯著。

在精細(xì)化處理方面:學(xué)者萬(wàn)卷1.0經(jīng)歷了語(yǔ)言篩選、文本抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則和模型的數(shù)據(jù)過(guò)濾和清洗、多尺度去重、數(shù)據(jù)質(zhì)量評(píng)估等多個(gè)精細(xì)化數(shù)據(jù)處理步驟。,因此可以更好地滿(mǎn)足后續(xù)模型預(yù)訓(xùn)練的需要。

在價(jià)值對(duì)齊方面:在“學(xué)者萬(wàn)卷”1.0的建設(shè)過(guò)程中,研究人員重點(diǎn)關(guān)注內(nèi)容與中國(guó)主流價(jià)值觀之間的對(duì)齊,并通過(guò)算法和人工評(píng)估相結(jié)合的方式提高語(yǔ)料庫(kù)的純度。

在易用性和效率方面,研究人員在“學(xué)者萬(wàn)卷”1.0中采用了統(tǒng)一的格式,并提供了詳細(xì)的領(lǐng)域描述和工具指導(dǎo),使其既易用又高效,可以快速應(yīng)用于語(yǔ)言和多模態(tài)模型等大型模型的預(yù)訓(xùn)練。