自動駕駛汽車為何不需要雷達? 特斯拉首席AI科學家釋疑

發(fā)布時間:2021-07-05 09:18:35  |  來源:網(wǎng)易科技  

對于全自動駕駛汽車需要哪些技術堆棧支持,不同企業(yè)和研究人員對這個問題有著不同的答案。事實上,實現(xiàn)自動駕駛的方法不一而足,有的只需要攝像頭和計算機視覺系統(tǒng),有的則需要計算機視覺與先進傳感器相結(jié)合。其中,特斯拉始終是純視覺自動駕駛技術的倡導者,在今年的計算機視覺和模式識別 (CVPR) 大會上,該公司首席 AI 科學家安德烈?卡帕西(Andrej Karpathy)解釋了原因。

過去幾年,卡帕西始終負責領導特斯拉的自動駕駛系統(tǒng)研發(fā)工作。在 2021 年 CVPR 自動駕駛研討會上,卡帕西詳細介紹了該公司是如何開發(fā)深度學習系統(tǒng)的,該系統(tǒng)只需要視頻輸入就可以了解汽車周圍的環(huán)境。同時,卡帕西還解釋了為何特斯拉最有可能幫助基于視覺的自動駕駛成為現(xiàn)實的原因。

通用計算機視覺系統(tǒng)

深度神經(jīng)網(wǎng)絡是自動駕駛技術堆棧的主要組成部分之一,它主要對車載攝像頭所拍攝視頻中的道路、標志、汽車、障礙物和行人進行分析。不過,深度學習在檢測圖像中的目標時也會出錯。為此,包括 Alphabet 子公司 Waymo 在內(nèi)的大多數(shù)自動駕駛汽車公司,都使用激光雷達。這種設備通過向各個方向發(fā)射激光束,生成汽車周圍的 3D 地圖。激光雷達提供了更多的信息,可以填補神經(jīng)網(wǎng)絡留下的空白。

然而,在自動駕駛堆棧中加入激光雷達也有其復雜之處。卡帕西說:“你必須用激光雷達預先測繪環(huán)境地圖,然后借此創(chuàng)建高清地圖,你必須插入所有的車道,搞清楚它們?nèi)绾芜B接,以及了解所有的交通燈。在測試階段,你只需要依據(jù)地圖駕車四處移動。”與此同時,要為自動駕駛汽車將要行駛的每個地點創(chuàng)建精確的地圖是極其困難的。卡帕西表示:“收集、構建和維護這些高清激光雷達地圖是不可擴展的。要保持基礎設施的持續(xù)更新也極其困難。”

特斯拉的自動駕駛汽車沒有使用激光雷達和高清地圖。卡帕西稱:“根據(jù)汽車周圍 8 個攝像頭拍攝的視頻,所有發(fā)生的事情都是第一次發(fā)生在車里。”

自動駕駛技術必須弄清楚車道在哪里,交通燈在哪里,它們所處狀態(tài)如何,以及哪些與車輛相關。而且它必須在沒有任何預先確定的道路導航信息的情況下完成所有這些工作。卡帕西承認,基于視覺的自動駕駛方法在技術上更難實現(xiàn),因為它需要僅靠視頻反饋就能運轉(zhuǎn)良好的神經(jīng)網(wǎng)絡。但他稱:“一旦這種系統(tǒng)投入使用,它就會成為通用計算機視覺系統(tǒng),可以部署在地球上的任何地方。”

有了通用計算機視覺系統(tǒng),汽車將不再需要其他輔助駕駛功能。卡帕西表示,特斯拉已經(jīng)在朝這個方向發(fā)展。此前,該公司使用雷達和攝像頭相結(jié)合的方式支持自動駕駛系統(tǒng),但其最近開始推出不再配備雷達的汽車。卡帕西表示:“我們移除了雷達,這些車只靠視覺行駛。這是因為,特斯拉的深度學習系統(tǒng)已經(jīng)達到了臨界點,現(xiàn)在比雷達的表現(xiàn)好 100 倍,而雷達開始成為阻礙。”

監(jiān)督式學習

反對純計算機視覺自動駕駛方法的主要論點是,神經(jīng)網(wǎng)絡是否可以在沒有激光雷達深度地圖的幫助下,進行測距和估計存在的不確定性。卡帕西對此表示:“顯然,人類開車時依賴視覺,所以我們的神經(jīng)網(wǎng)絡能夠處理視覺輸入,以了解我們周圍物體的深度和速度。但最大的問題是,合成神經(jīng)網(wǎng)絡能做到同樣的事情嗎?在過去幾個月里,我們的努力證明,這是有可能實現(xiàn)的。”

特斯拉的工程師們想要創(chuàng)建一個深度學習系統(tǒng),可以在深度、速度和加速度方面對物體進行檢測。他們決定將這一挑戰(zhàn)視為一個監(jiān)督式學習問題來對待,即神經(jīng)網(wǎng)絡在經(jīng)過注釋數(shù)據(jù)訓練后,學會檢測目標及其相關屬性。

為了訓練他們的深度學習架構,特斯拉團隊需要一個包含數(shù)百萬個視頻的海量數(shù)據(jù)集,并仔細地對視頻所包含的對象及其屬性進行注釋。為自動駕駛汽車創(chuàng)建數(shù)據(jù)集尤其棘手,工程師們必須確保包括各種不同的道路設置和不經(jīng)常發(fā)生的邊緣情況。卡帕西說:“當你有一個龐大、干凈、多樣化的數(shù)據(jù)集,然后用它訓練大型神經(jīng)網(wǎng)絡時,我在實踐中看到的是,成功可以得到保證。”

自動標記數(shù)據(jù)集

特斯拉在全球售出了數(shù)百萬輛配有攝像頭的汽車,并據(jù)此在收集訓練汽車視覺深度學習模型所需的數(shù)據(jù)方面處于有利地位。特斯拉的自動駕駛團隊積累了 1.5PB 的數(shù)據(jù),包括 100 萬段 10 秒長的視頻和 60 億個標注了邊框、深度和速度的物體。但是給這樣龐大的數(shù)據(jù)集貼上標簽是個巨大的挑戰(zhàn)。一種方法是通過數(shù)據(jù)標簽公司或在線平臺 (如 Amazon Turk) 手動標注。但這將需要大量的手工工作,可能會花費一大筆錢,而且進展緩慢。

與之相比,特斯拉團隊使用了自動標記技術,它結(jié)合了神經(jīng)網(wǎng)絡、雷達數(shù)據(jù)和人工審核。由于數(shù)據(jù)集是離線標注的,神經(jīng)網(wǎng)絡可以回播視頻,將它們的預測與實際情況進行比較,并調(diào)整它們的參數(shù)。這與所謂的“測試推理”相反,后者所有事情都是實時發(fā)生的,深度學習模型無法進行追溯。

離線標記還使工程師能夠應用非常強大的、計算密集型的目標檢測網(wǎng)絡,這些網(wǎng)絡無法部署在汽車上,可以用于實時、低延遲的應用程序。他們利用雷達傳感器數(shù)據(jù)進一步驗證神經(jīng)網(wǎng)絡的推斷。所有這些都提高了標記網(wǎng)絡的精度。卡帕西說:“如果你處于離線狀態(tài),你就會獲得后續(xù)好處,可以更好地融合不同的傳感器數(shù)據(jù)。此外,你可以讓人類參與進來,他們可以進行清理、驗證、編輯等工作。”

不過,卡帕西沒有透露對自動標簽系統(tǒng)進行最終修改需要多少人力,但人類的認知在引導自動標簽系統(tǒng)向正確方向發(fā)展方面發(fā)揮了關鍵作用。

在開發(fā)數(shù)據(jù)集的過程中,特斯拉團隊發(fā)現(xiàn)了超過 200 個觸發(fā)點,表明目標檢測需要調(diào)整。這些問題包括不同攝像頭之間或攝像頭與雷達之間的檢測結(jié)果不一致。他們還確定了可能需要特別注意的情況,比如隧道入口和出口,以及頂部有物體的汽車。特斯拉用了四個月的時間來開發(fā)和掌握所有這些觸發(fā)器。隨著標簽網(wǎng)絡的改進,它以“影子模式”部署。這意味著它被安裝在消費者的汽車上,靜默運行,而不向汽車發(fā)出命令,并將該網(wǎng)絡的輸出與傳統(tǒng)網(wǎng)絡、雷達和司機的行為進行比較。

特斯拉團隊經(jīng)歷了七次數(shù)據(jù)工程迭代。他們從一個初始數(shù)據(jù)集開始,在這個數(shù)據(jù)集上訓練他們的神經(jīng)網(wǎng)絡。然后,他們在真實汽車上部署“影子模式”的深度學習,并使用觸發(fā)器來檢測不一致性、錯誤和特殊場景。然后對錯誤進行修正,如果需要,還會向數(shù)據(jù)集添加新數(shù)據(jù)。卡帕西說:“我們一遍又一遍地重復這個循環(huán),直到神經(jīng)網(wǎng)絡變得足夠好。”

因此,該體系結(jié)構可以更好地描述為具有巧妙分工的半自動標注系統(tǒng),其中神經(jīng)網(wǎng)絡負責重復性工作,人類負責解決高級認知問題和罕見情況。

有趣的是,當被問及觸發(fā)器的生成是否可以自動化時,卡帕西回答說:“觸發(fā)器的自動化是個非常棘手的問題,因為你可以有通用觸發(fā)器,但它們不能正確地代表錯誤模式。例如,很難自動生成具有觸發(fā)進入和退出隧道功能的觸發(fā)器,這是人類通過直覺獲得的能力,目前還不清楚其具體原理。”

分層深度學習體系結(jié)構

特斯拉的自動駕駛團隊需要高效和精心設計的神經(jīng)網(wǎng)絡,以最大限度地利用他們收集的高質(zhì)量數(shù)據(jù)集。該公司創(chuàng)建了一個由不同神經(jīng)網(wǎng)絡組成的分層深度學習體系結(jié)構,這些神經(jīng)網(wǎng)絡處理信息,并將其輸出給下一組網(wǎng)絡。

深度學習模型使用卷積神經(jīng)網(wǎng)絡從安裝在汽車周圍的 8 個攝像頭的視頻中提取特征,并使用變換神經(jīng)網(wǎng)絡將它們?nèi)诤显谝黄稹H缓螅鼤S著時間的推移融合這些信息,這對于軌跡預測和消除推理不一致等任務來說非常重要。然后,空間和時間特征被輸入神經(jīng)網(wǎng)絡的分層結(jié)構中,卡帕西將其描述為頭部、軀干和神經(jīng)。他說:“你之所以想要這種分層結(jié)構,是因為你對大量的輸出感興趣,但你負擔不起每個輸出都有對應神經(jīng)網(wǎng)絡的代價。”

分層結(jié)構使得可以為不同的任務重用組件,并支持不同推理路徑之間的特性共享。網(wǎng)絡的模塊化體系結(jié)構的另一個好處是進行分布式開發(fā)的可能性。特斯拉目前聘用了一個龐大的機器學習工程師團隊,致力于自動駕駛神經(jīng)網(wǎng)絡的研究。他們每個人都在網(wǎng)絡的單個小組件上工作,然后把他們的結(jié)果插入到更大的網(wǎng)絡中。卡帕西稱:“我們有個大約 20 人的團隊,他們在全職訓練神經(jīng)網(wǎng)絡。它們都在同一個神經(jīng)網(wǎng)絡上合作。”

垂直整合

在 CVPR 的演講中,卡帕西分享了特斯拉用來訓練和微調(diào)其深度學習模型的超級計算機的更多細節(jié)。整個計算集群由 80 個節(jié)點組成,每個節(jié)點包含 8 個英偉達 A100 圖形處理器和 80 GB 顯存,總計 5760 個 GPU 和超過 450 TB 的 VRAM。這臺超級計算機還擁有 10PB 的 NVME 超高速存儲和 640 Tbps 的網(wǎng)絡容量來連接所有節(jié)點,并允許對神經(jīng)網(wǎng)絡進行高效的分布式訓練。

特斯拉還擁有并制造安裝在其汽車內(nèi)的 AI 芯片。卡帕西表示:“這些芯片是專門為我們希望在完全自動駕駛應用中運行的神經(jīng)網(wǎng)絡設計的。”

特斯拉的最大優(yōu)勢是它的垂直整合能力。該公司擁有整個自動駕駛汽車堆棧,自己生產(chǎn)汽車和自動駕駛功能硬件,同時通過從售出的數(shù)百萬輛汽車中收集各種各樣的遙測和視頻數(shù)據(jù)占據(jù)獨特的位置。特斯拉還利用其專有數(shù)據(jù)集創(chuàng)建并訓練其神經(jīng)網(wǎng)絡,并通過在其汽車上進行影子測試來驗證和微調(diào)這些網(wǎng)絡。當然,特斯拉擁有杰出的團隊,由機器學習工程師、研究人員和硬件設計師組成,他們把所有的東西組裝在一起。

卡帕西說:“你可以在所有層面進行協(xié)同設計和攻堅,沒有第三方在阻礙你。你完全掌控了自己的命運,我認為這是不可思議的。”

這種垂直整合以及創(chuàng)建數(shù)據(jù)、調(diào)整機器學習模型并將其部署到許多汽車上的能力,使特斯拉在實現(xiàn)僅基于視覺的自動駕駛汽車能力方面獲得了優(yōu)勢。在他的演講中,卡帕西展示了幾個例子,顯示新的神經(jīng)網(wǎng)絡勝過了與雷達信息結(jié)合工作的傳統(tǒng) ML 模型。卡帕西說,如果該系統(tǒng)繼續(xù)改進,特斯拉可能會淘汰激光雷達,并認為沒有其他公司能夠復制特斯拉的方法。

未解決問題

但問題仍然存在,比如深度學習目前的進步狀態(tài)是否足以克服自動駕駛面臨的所有挑戰(zhàn)。當然,目標檢測、速度和距離估計在駕駛中起著重要作用。但是人類的視覺還有許多其他復雜的功能,科學家們稱之為視覺的“暗物質(zhì)”。這些都是意識和潛意識分析視覺輸入和不同環(huán)境導航的重要組成部分。

深度學習模型也很難做出因果推理,當模型面對他們以前沒有見過的新情況時,這可能是個巨大的障礙。因此,雖然特斯拉成功地創(chuàng)建了龐大而多樣化的數(shù)據(jù)集,但開放道路上的實際環(huán)境卻非常復雜,那里隨時都可能發(fā)生新的、不可預測的事情。

AI 社區(qū)存在的分歧在于,是否需要明確地將因果關系和推理整合到深度神經(jīng)網(wǎng)絡中,或者是否可以通過“直接擬合”克服因果關系障礙。特斯拉以視覺為基礎的自動駕駛團隊似乎更喜歡后者,但這項技術顯然需要接受時間的考驗。

關鍵詞: 特斯拉 自動駕駛

 

關于我們 - 聯(lián)系我們 - 版權聲明 - 招聘信息 - 友鏈交換

2014-2020  電腦商網(wǎng) 版權所有. All Rights Reserved.

備案號:京ICP備2022022245號-1 未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復制.

聯(lián)系我們:435 226 40@qq.com