亚洲偷自拍视频在线观看,一级a爱99做片观看免费,久久国产视屏,欧美国产在线视频大全,国产成年网站v片在线观看,免费A级毛片免费视频,人妻少妇满足中文字幕

HAOMO AI DAY 顧維灝:DriveGPT讓通用感知實(shí)現(xiàn)“萬物識(shí)別”

2023-10-12 15:30:19 作者:喻欽濤

  隨著汽車智能化趨勢(shì)加速,我國(guó)智能駕駛賽道迎來爆發(fā)。當(dāng)前高階智駕產(chǎn)品正經(jīng)歷從高速場(chǎng)景到城市場(chǎng)景落地的比拼,而城市輔助駕駛被認(rèn)為是邁向真正自動(dòng)駕駛的最后一個(gè)挑戰(zhàn)。毫末認(rèn)為,決定這場(chǎng)智能駕駛產(chǎn)品躍遷的關(guān)鍵,是自動(dòng)駕駛AI算法在開發(fā)模式和技術(shù)框架的顛覆性變革,而AI大模型則成為引領(lǐng)這場(chǎng)技術(shù)變革的核心變量。

  2023年10月11日第九屆毫末AI DAY上,顧維灝發(fā)表了主題為《自動(dòng)駕駛3.0時(shí)代:大模型將重塑汽車智能化的技術(shù)路線》的演講,分享了毫末對(duì)于自動(dòng)駕駛3.0時(shí)代AI開發(fā)模式和技術(shù)架構(gòu)變革的思考,同時(shí)也公布了毫末DriveGPT大模型的最新進(jìn)展和實(shí)踐。其中,截至目前,毫末型DriveGPT雪湖·海若已累計(jì)計(jì)篩選出超過100億幀互聯(lián)網(wǎng)圖片數(shù)據(jù)集和480萬段包含人駕行為的自動(dòng)駕駛4D Clips數(shù)據(jù);在通用感知上,進(jìn)一步升級(jí)引入多模態(tài)大模型,獲得識(shí)別萬物的能力;與NeRF技術(shù)進(jìn)一步整合,渲染重建4D空間;在通用認(rèn)知上,借助LLM(大語言模型),讓自動(dòng)駕駛認(rèn)知決策具備世界知識(shí),能夠做出更好的駕駛策略。

(顧維灝:DriveGPT通用感知與通用認(rèn)知能力全面升級(jí))

  毫末智行CEO顧維灝提出:“在大數(shù)據(jù)、大模型、大算力的自動(dòng)駕駛3.0時(shí)代,自動(dòng)駕駛技術(shù)框架也會(huì)發(fā)生顛覆性的變化。在感知階段,通過海量的數(shù)據(jù)訓(xùn)練感知基礎(chǔ)模型,學(xué)習(xí)并認(rèn)識(shí)客觀世界的各種物體;在認(rèn)知階段,則通過海量司機(jī)的駕駛行為數(shù)據(jù),學(xué)習(xí)駕駛常識(shí),通過數(shù)據(jù)驅(qū)動(dòng)的方式不斷迭代并提升整個(gè)系統(tǒng)的能力水平。毫末一直以數(shù)據(jù)驅(qū)動(dòng)的方式來推動(dòng)自動(dòng)駕駛產(chǎn)品的升級(jí),為進(jìn)入自動(dòng)駕駛3.0時(shí)代做準(zhǔn)備。”

1
 
通用感知可識(shí)別萬物、通用認(rèn)知學(xué)會(huì)世界知識(shí):毫末DriveGPT引領(lǐng)自動(dòng)駕駛大模型新范式

  顧維灝認(rèn)為,與2.0時(shí)代相比,自動(dòng)駕駛3.0時(shí)代的開發(fā)模式將發(fā)生顛覆性的變革。在自動(dòng)駕駛2.0時(shí)代,以小數(shù)據(jù)、小模型為特征,以Case任務(wù)驅(qū)動(dòng)為開發(fā)模式。而自動(dòng)駕駛3.0時(shí)代,以大數(shù)據(jù)、大模型為特征,以數(shù)據(jù)驅(qū)動(dòng)為開發(fā)模式。

  相比2.0時(shí)代主要采用傳統(tǒng)模塊化框架,3.0時(shí)代的技術(shù)框架也發(fā)生了顛覆性變化。

  首先,自動(dòng)駕駛會(huì)在云端實(shí)現(xiàn)感知大模型和認(rèn)知大模型的能力突破,并將車端各類小模型逐步統(tǒng)一為感知模型和認(rèn)知模型,同時(shí)將控制模塊也AI模型化。隨后,車端智駕系統(tǒng)的演進(jìn)路線也是一方面會(huì)逐步全鏈路模型化,另一方面是逐步大模型化,即小模型逐漸統(tǒng)一到大模型內(nèi)。然后,云端大模型也可以通過剪枝、蒸餾等方式逐步提升車端的感知能力,甚至在通訊環(huán)境比較好的地方,大模型甚至可以通過車云協(xié)同的方式實(shí)現(xiàn)遠(yuǎn)程控車。最后,在未來車端、云端都是端到端的自動(dòng)駕駛大模型

(毫末DriveGPT升級(jí):大模型讓自動(dòng)駕駛擁有世界知識(shí))

  毫末DriveGPT大模型正是按照3.0時(shí)代的技術(shù)框架要求進(jìn)行升級(jí)。在通用感知能力提升上,DriveGPT通過引入多模態(tài)大模型,實(shí)現(xiàn)文、圖、視頻多模態(tài)信息的整合,獲得識(shí)別萬物的能力;同時(shí),通過與NeRF技術(shù)整合,DriveGPT實(shí)現(xiàn)更強(qiáng)的4D空間重建能力,獲得對(duì)三維空間和時(shí)序的全面建模能力;在通用認(rèn)知能力提升上,DriveGPT借助大語言模型,將世界知識(shí)引入到駕駛策略,從而做出更好的駕駛決策優(yōu)化。

  具體來講,在感知階段,DriveGPT首先通過構(gòu)建視覺感知大模型來實(shí)現(xiàn)對(duì)真實(shí)物理世界的學(xué)習(xí),將真實(shí)世界建模到三維空間,再加上時(shí)序形成4D向量空間;然后,在構(gòu)建對(duì)真實(shí)物理世界的4D感知基礎(chǔ)上,毫末進(jìn)一步引入開源的圖文多模態(tài)大模型,構(gòu)建更為通用的語義感知大模型,實(shí)現(xiàn)文、圖、視頻多模態(tài)信息的整合,從而完成4D向量空間到語義空間的對(duì)齊,實(shí)現(xiàn)跟人類一樣的“識(shí)別萬物”的能力。

(毫末DriveGPT通用感知大模型:讓自動(dòng)駕駛認(rèn)識(shí)萬物)

  毫末通用感知能力的進(jìn)化升級(jí)包含兩個(gè)方面。首先是視覺大模型的CV Backbone的持續(xù)進(jìn)化,當(dāng)前基于大規(guī)模數(shù)據(jù)的自監(jiān)督學(xué)習(xí)訓(xùn)練范式,采用Transformer大模型架構(gòu),實(shí)現(xiàn)視頻生成的方式來進(jìn)行訓(xùn)練,構(gòu)建包含三維的幾何結(jié)構(gòu)、圖片紋理、時(shí)序信息等信息的4D表征空間,實(shí)現(xiàn)對(duì)全面的物理世界的感知和預(yù)測(cè)。其次是構(gòu)建起更基礎(chǔ)的通用語義感知大模型,在視覺大模型基礎(chǔ)上,引入圖文多模態(tài)模型來提升感知效果,圖文多模態(tài)模型可以對(duì)齊自然語言信息和圖片的視覺信息,在自動(dòng)駕駛場(chǎng)景中就可以對(duì)齊視覺和語言的特征空間,從而具備識(shí)別萬物的能力,也由此可以更好完成目標(biāo)檢測(cè)、目標(biāo)跟蹤、深度預(yù)測(cè)等各類任務(wù)。

  在認(rèn)知階段,基于通用語義感知大模型提供的“萬物識(shí)別”能力,DriveGPT通過構(gòu)建駕駛語言(Drive Language)來描述駕駛環(huán)境和駕駛意圖,再結(jié)合導(dǎo)航引導(dǎo)信息以及自車歷史動(dòng)作,并借助外部大語言模型LLM的海量知識(shí)來輔助給出駕駛決策。

(毫末DriveGPT認(rèn)知大模型:讓自動(dòng)駕駛具備常識(shí))

  由于大語言模型已經(jīng)學(xué)習(xí)到并壓縮了人類社會(huì)的全部知識(shí),因而也就包含了駕駛相關(guān)的知識(shí)。經(jīng)過毫末對(duì)大語言模型的專門訓(xùn)練和微調(diào),從而讓大語言模型更好地適配自動(dòng)駕駛?cè)蝿?wù),使得大語言模型能真正看懂駕駛環(huán)境、解釋駕駛行為,做出駕駛決策。

  認(rèn)知大模型通過與大語言模型結(jié)合,使得自動(dòng)駕駛認(rèn)知決策獲得了人類社會(huì)的常識(shí)和推理能力,也就是獲得了世界知識(shí),從而提升自動(dòng)駕駛策略的可解釋性和泛化性。

  顧維灝表示:“未來的自動(dòng)駕駛系統(tǒng)一定是跟人類駕駛員一樣,不但具備對(duì)三維空間的精確感知測(cè)量能力,而且能夠像人類一樣理解萬物之間的聯(lián)系、事件發(fā)生的邏輯和背后的常識(shí),并且能基于這些人類社會(huì)的經(jīng)驗(yàn)來做出更好的駕駛策略,真正實(shí)現(xiàn)完全無人駕駛。”

2
 
能生成、會(huì)解釋、可預(yù)測(cè):毫末DriveGPT大模型升級(jí)帶來七大應(yīng)用實(shí)踐

  在毫末DriveGPT大模型的最新開發(fā)模式和技術(shù)框架基礎(chǔ)上,顧維灝同時(shí)分享了自動(dòng)駕駛大模型的七大應(yīng)用實(shí)踐,包括駕駛場(chǎng)景理解、駕駛場(chǎng)景標(biāo)注、駕駛場(chǎng)景生成、駕駛場(chǎng)景遷移、駕駛行為解釋、駕駛環(huán)境預(yù)測(cè)和車端模型開發(fā)。

(毫末DriveGPT應(yīng)用的七大實(shí)踐)

  顧維灝表示:“毫末DriveGPT大模型的應(yīng)用,在自動(dòng)駕駛系統(tǒng)開發(fā)過程中帶來了巨大技術(shù)提升,使得毫末的自動(dòng)駕駛系統(tǒng)開發(fā)徹底進(jìn)入了全新模式,新開發(fā)模式和技術(shù)架構(gòu)將大大加速汽車智能化的進(jìn)化進(jìn)程。”

  第一、駕駛場(chǎng)景理解,可實(shí)現(xiàn)秒級(jí)數(shù)據(jù)篩選,為圖文多模態(tài)模型發(fā)掘海量?jī)?yōu)質(zhì)數(shù)據(jù)。

(駕駛場(chǎng)景理解:開集語義圖像檢索)

  原有自動(dòng)駕駛技術(shù)方案在解決Corner case時(shí),都需要先收集一批與此case相關(guān)的數(shù)據(jù),然后以標(biāo)簽加人工的方式進(jìn)行數(shù)據(jù)標(biāo)注,即先對(duì)圖片打上標(biāo)簽,然后用標(biāo)簽做粗篩選、再人工細(xì)篩選,成本非常高、效率非常低?,F(xiàn)在,毫末采用通用感知大模型,可以利用圖文多模態(tài)模型對(duì)海量采集圖片進(jìn)行目標(biāo)級(jí)別和全圖級(jí)別的特征提取,變成圖片表征向量,并對(duì)這些海量的向量數(shù)據(jù)建立向量數(shù)據(jù)庫,可以從百億級(jí)別的向量數(shù)據(jù)庫中找到任意文本對(duì)應(yīng)的駕駛場(chǎng)景數(shù)據(jù),實(shí)現(xiàn)秒級(jí)搜索。

  基于這一能力,毫末還構(gòu)建了專有的自動(dòng)駕駛場(chǎng)景多模態(tài)數(shù)據(jù)集,訓(xùn)練了毫末的圖文多模態(tài)模型,來對(duì)如魚骨線、雙黃實(shí)線車道線等理解難度較大的駕駛環(huán)境特有場(chǎng)景進(jìn)行專門訓(xùn)練和學(xué)習(xí)。

  第二、駕駛場(chǎng)景標(biāo)注,實(shí)現(xiàn)更高效的Zero-Shot的自動(dòng)數(shù)據(jù)標(biāo)注,讓萬物皆可被認(rèn)出。

(駕駛場(chǎng)景標(biāo)注:zeroShot自動(dòng)標(biāo)注)

  原有的自動(dòng)駕駛感知算法,僅僅能識(shí)別人工標(biāo)注過的有限個(gè)品類的物體,一般也就幾十類,這些品類之外的物體都無法識(shí)別,通常稱之為閉集(Closed-set)數(shù)據(jù)。毫末通過圖文多模態(tài)大模型將原有僅識(shí)別少數(shù)交通元素的閉集場(chǎng)景標(biāo)注,升級(jí)為開集(Open-set)場(chǎng)景中進(jìn)行Zero-Shot的自動(dòng)標(biāo)注,從而應(yīng)對(duì)千變?nèi)f化的真實(shí)世界的各類駕駛場(chǎng)景,實(shí)現(xiàn)對(duì)任意物體既快速又精準(zhǔn)的標(biāo)注。

  通過多模態(tài)技術(shù)對(duì)齊圖文表征,再利用大語言模型輔助用于提供開放詞句的表征能力,最終完成Zero-Shot的自動(dòng)標(biāo)注。通過該方案,毫末不僅實(shí)現(xiàn)了針對(duì)新品類的Zero-Shot快速標(biāo)注,而且精度還非常高,預(yù)標(biāo)注準(zhǔn)召達(dá)到80%以上。

  第三、駕駛場(chǎng)景生成,實(shí)現(xiàn)無中生有的可控生成技術(shù),讓Hardcase不再難找。

(駕駛場(chǎng)景生成:無中生有的可控生成)

  為應(yīng)對(duì)海量數(shù)據(jù)中相關(guān)困難場(chǎng)景(Hardcase)數(shù)據(jù)不足的問題,毫末基于DriveGPT大模型構(gòu)建了AIGC能力,從而生成平時(shí)難以獲取的Hardcase數(shù)據(jù)?;诤聊┴S富的駕駛數(shù)據(jù),訓(xùn)練了駕駛場(chǎng)景的AIGC模型,可通過輸入標(biāo)注結(jié)果,比如路口、大區(qū)率彎道等車道線,再以這個(gè)標(biāo)注結(jié)果為Prompt來生成對(duì)應(yīng)的圖像?;谶@樣的可控生成的圖像,一方面可以通過標(biāo)注進(jìn)行更加精細(xì)的位置控制,另一方面也讓新生成的數(shù)據(jù)自帶了標(biāo)注信息,可以直接用于下游任務(wù)的訓(xùn)練。

  第四、駕駛場(chǎng)景遷移,通過瞬息萬變的場(chǎng)景遷移技術(shù),實(shí)現(xiàn)全天候駕駛數(shù)據(jù)的同時(shí)獲取。

(駕駛場(chǎng)景遷移:輕松獲取全天候駕駛數(shù)據(jù))

  除了基于標(biāo)注結(jié)果的數(shù)據(jù)生成之外,DriveGPT還可以進(jìn)行高效的場(chǎng)景遷移。通過引入文字引導(dǎo),AIGC生成能力可以用單個(gè)模型實(shí)現(xiàn)多目標(biāo)場(chǎng)景生成?;诤聊┑母兄竽P停哉鎸?shí)的采集圖像作為引導(dǎo),通過文本語言來描述希望生成的目標(biāo)場(chǎng)景,可實(shí)現(xiàn)清晨、正午、黃昏、夜晚等多時(shí)間段光照變換,同時(shí)也可把晴天轉(zhuǎn)換為雨天、雪天、霧天等各種極端天氣。通過這種方式,能將采集到的一個(gè)場(chǎng)景,遷移到該場(chǎng)景的不同時(shí)間、不同天氣、不同光照等各類新場(chǎng)景下,極大地豐富了訓(xùn)練數(shù)據(jù),提高模型在極端場(chǎng)景下的泛化性。

  第五、駕駛行為解釋,通過引入大語言模型,讓AI解說駕駛場(chǎng)景和駕駛策略。

  毫末DriveGPT原本對(duì)自動(dòng)駕駛策略解釋的做法是引入場(chǎng)景庫、并對(duì)典型場(chǎng)景用人工標(biāo)注的方式給出駕駛解釋,這次升級(jí)則是通過引入大語言模型來對(duì)駕駛環(huán)境、駕駛決策做出更豐富的解釋,相當(dāng)于讓AI自己解釋自己的駕駛策略。

  首先,將感知大模型的結(jié)果解碼得到當(dāng)前的感知結(jié)果,再結(jié)合自車信息和駕駛意圖,構(gòu)造典型的Drive Prompt(駕駛提示語),將這些Prompt輸入大語言模型,從而讓大語言模型對(duì)當(dāng)前的自動(dòng)駕駛環(huán)境做出解釋。其次,大語言模型也可以對(duì)自動(dòng)駕駛系統(tǒng)所做出的駕駛行為給出合理的解釋,掌握例如為什么要加速、為什么要減速、為什么要變道等,讓大語言模型能夠像駕校教練或者陪練一樣,對(duì)駕駛行為做出詳細(xì)的解釋。大語言模型的引入,一方面能解決大模型不可解釋的問題,另一方面也能基于這些駕駛解釋來進(jìn)行駕駛決策的優(yōu)化。

(駕駛行為解釋:讓AI解釋自己的駕駛決策)

  第六、駕駛環(huán)境預(yù)測(cè),讓DriveGPT具備社會(huì)常識(shí),從而可以準(zhǔn)確地預(yù)測(cè)未來場(chǎng)景。

  DriveGPT原有采用生成式預(yù)訓(xùn)練的方式,使用海量司機(jī)駕駛行為進(jìn)行預(yù)訓(xùn)練以及引入大量司機(jī)接管數(shù)據(jù)座位人類反饋數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),從而基于已有的BEV場(chǎng)景來更好預(yù)測(cè)生成未來幾秒的BEV場(chǎng)景。但是DriveGPT需要具備像人類一樣對(duì)社會(huì)常識(shí)、社會(huì)潛規(guī)則的理解,并基于這種潛規(guī)則做出更好的預(yù)測(cè)。因此,除了使用駕駛行為數(shù)據(jù),DriveGPT還需要引入大語言模型,才可以在預(yù)測(cè)規(guī)劃中融入人類社會(huì)的知識(shí)或常識(shí),才能給出更合理的駕駛決策。

  顧維灝認(rèn)為:“我們相信,必須要引入大語言模型,才能讓自動(dòng)駕駛具備常識(shí),而自動(dòng)駕駛必須具備常識(shí),才能理解人類社會(huì)的各種明規(guī)則、潛規(guī)則,才能跟老司機(jī)一樣,與各類障礙物進(jìn)行更好地交互。”

(駕駛環(huán)境預(yù)測(cè):更像人類一樣預(yù)測(cè)未來場(chǎng)景)

  第七、車端模型開發(fā),把大模型蒸餾成小模型,從而在有限車端算力上得到更好效果。

  大模型訓(xùn)練需要依靠云端的海量數(shù)據(jù)和超大算力,短期內(nèi)難以直接部署到車端芯片,而如何讓大模型的能力幫助車端提升效果,可以采用蒸餾的方式。第一種蒸餾方法是使用大模型來輸出各類偽標(biāo)簽,偽標(biāo)簽既可以作為訓(xùn)練語料,來豐富車端小模型的訓(xùn)練數(shù)據(jù),也可以作為監(jiān)督信號(hào),讓車端小模型來學(xué)習(xí)云端大模型的預(yù)測(cè)結(jié)果;第二種蒸餾方法是通過對(duì)齊Feature Map的方式,讓車端小模型直接學(xué)習(xí)并對(duì)齊云端的Feature Map,從而提升車端小模型的能力。基于蒸餾的方式,可以讓車端的感知效果提升5個(gè)百分點(diǎn)。

(車端模型開發(fā)新模式:把大模型蒸餾成小模型)

3
 
純視覺泊車、道路全要素識(shí)別、小目標(biāo)檢測(cè):毫末DriveGPT賦能車端感知提升

  毫末利用視覺感知模型,使用魚眼相機(jī)可以識(shí)別墻、柱子、車輛等各類型的邊界輪廓,形成360度的全視野動(dòng)態(tài)感知,可以做到在15米范圍內(nèi)達(dá)到30cm的測(cè)量精度,2米內(nèi)精度可以高于10cm。這樣的精度可實(shí)現(xiàn)用視覺取代USS超聲波雷達(dá),從而進(jìn)一步降低整體智駕方案成本。

(毫末純視覺泊車)

  基于DriveGPT基于通用感知的萬物識(shí)別的能力,毫末對(duì)交通場(chǎng)景全要素識(shí)別也有了較大提升,從原有感知模型只能識(shí)別少數(shù)幾類障礙物和車道線,到現(xiàn)在可以識(shí)別各類交通標(biāo)志、地面箭頭、甚至井蓋等交通場(chǎng)景的全要素?cái)?shù)據(jù)。大量高質(zhì)量的道路場(chǎng)景全要素標(biāo)注數(shù)據(jù),可以有效幫助毫末重感知的車端感知模型實(shí)現(xiàn)效果的提升,助力城市NOH的加速進(jìn)城。

(毫末城市NOH感知全要素識(shí)別)

  基于DriveGPT的通用語義感知模型能力對(duì)通用障礙物的開集場(chǎng)景標(biāo)注,可實(shí)現(xiàn)對(duì)道路上小目標(biāo)障礙物檢測(cè)也有較好的效果。毫末在當(dāng)前城市NOH的測(cè)試中,可以在城市道路場(chǎng)景中,在時(shí)速最高70公里的50米距離外,就能檢測(cè)到大概高度為35cm的小目標(biāo)障礙物,可以做到100%的成功繞障或剎停,這樣可以對(duì)道路上穿行的小動(dòng)物等移動(dòng)障礙物起到很好地檢測(cè)保護(hù)作用。

(毫末城市NOH小目標(biāo)障礙物檢測(cè))

  歷屆HAOMO AI DAY的核心主題都是聚焦最硬核的自動(dòng)駕駛AI技術(shù),這次更是專門聚焦AI大模型對(duì)于自動(dòng)駕駛技術(shù)的賦能,提出了探索端到端自動(dòng)駕駛技術(shù)路線的一種新可能。

  正如顧維灝在結(jié)尾說道:“毫末即將成立四周年,一約既定,萬山無阻。毫末人將繼續(xù)用AI連接更廣闊的世界,用技術(shù)叩問更浩遠(yuǎn)的未來。”HAOMO AI DAY成為中國(guó)自動(dòng)駕駛技術(shù)的一面旗幟,同時(shí)也正在成為毫末向年輕的AI人才發(fā)出邀請(qǐng)的最好的一扇窗口。

>>點(diǎn)擊查看今日優(yōu)惠<<

    本文導(dǎo)航
    熱門文章
    相關(guān)閱讀
    點(diǎn)擊加載更多