博雯明敏發自凹非寺
量子位報導|公眾號QbitAI
要致富先修路。
在面向智慧時代的轉型中,武漢深諳此理。
這不,多模態人工智慧產業聯盟,為此而來。
中科院自動化研究所牽頭,華為、武漢人工智慧研究院提供技術支援。
再看其他聯盟成員:武漢大學、華中科技大學、中移系統集成、愛奇藝、新華社科技局……都是產學研各界耳熟能詳的名字。
它們聚集在武漢,搞了這個“大合體”的目的也很簡單:
依靠和聯盟成員的合作,要把多模態人工智慧產業落地推進到底。
這是一個怎樣的組織?
先從關鍵字解題。
“模態”。這是一個認知領域的概念,指某種資訊的來源或形式,或者“某件事情發生、被感知到的管道”。
人的觸覺、聽覺、視覺、嗅覺,作為資訊媒介的語音、視頻、影像、文字等都可以被稱之為是一種模態。
“多模態”一詞則更多出現在計算機科學領域:當一個研究問題或數据集包含兩種及其以上的模態資料類型時,它就被描述為多模態(Multimodality)。
而通過多模態進行互動和學習,一度被稱為是“最接近類人腦智慧的管道”。
究其原因,還是人腦的感知和認知過程,本質也是一個多種感官資訊融合處理的過程。
比如,人可以同時利用視覺和聽覺資訊理解說話人的情感:
囙此,人工智慧領域近幾年的一個熱門方向,就是學習不同模態資訊之間的關聯,處理和理解多模態資訊。
並且,這些科技已經應用在了我們生活中的各個方面。
比如大家都熟知的自動駕駛科技,就是基於視覺監視器、雷射雷達、超聲傳感、地圖等多種模態的感測器實現的:
還有一些視頻網站的智能化推薦,也是通過分析視頻封面、視頻抽幀和文字幾個模態的資訊對視頻質量進行評估:
此外,通過語音辨識和視覺感知理解語義的智慧音箱、結合產品影像和語義内容進行推薦的智慧客服、融合人臉聲音虹膜等多種資訊進行身份識別的安全系統,都是多模態科技的體現。
所以多模態人工智慧產業聯盟會聚集各行各業的成員,也就再自然不過。
牽頭的中科院自動化研究所,國內最早開展類腦智慧研究的國立研究機構,擁有3個國家級重點平臺和數十個重點實驗室及研究中心。
今年9月份,中科院自動化研究所在華為全聯接大會發佈了全球首個三模態大模型紫東.太初。這一模型擁有千億級別的參數,能够跨越視覺-文字-語音三種模態進行統一編碼。
在今年的兩項AI頂會,ACM Multimedia和ICCV的視頻語義理解與視頻描述賽道中,“紫東.太初”拿下兩項冠軍,在跨模態理解與生成效能上都展現出了現時業界的最高水準。
多模態聯盟將基於紫東.太初,孵化更多行業應用,並進一步探索通用人工智慧新路徑。
聯盟的理事長組織是中科院自動化研究所。
另外三比特副理事長,也是多模態領域的重要玩家。
他們分別來自華為、愛奇藝和武漢升騰人工智慧生態創新中心。
其中,升騰AI平臺包括Atlas系列硬體、異構計算架構CANN、全場景AI框架昇思MindSpore、升騰應用使能MindX以及AI應用使能ModelArts等,為開發者和企業高效使用AI能力,創新場景化AI應用,加速千行百業智能升級,可以說是現時業界極其領先的全場景AI平臺。
愛奇藝也在多模態領域深耕多年。
依據自身的數據場景,愛奇藝構建了PPC視頻-中文描述的數据集,基於這一數据集開發的跨模態蒐索項目能够通過中文語句蒐索視頻中的內容。此外,還有能够基於視頻內容自動生成語音解說的視頻-臺詞-描述的跨模態模型。
此外,與其他AI生態組織中不同,多模態人工智慧產業聯盟當中,確實包含了諸多產業一線力量,通過完整名單,就能明顯感知:
會員單位由湖南省馬欄山計算媒體研究院、依瞳科技(深圳)有限公司、魏橋國科研究院、拓維資訊股份有限公司、鬥魚、長江計算、武漢大學、華中科技大學、極目智慧、武漢微創光電股份有限公司、武漢光庭資訊技術股份有限公司、武漢興圖新科電子股份有限公司、武漢唯理科技有限公司、三峽電能能源管理(湖北)有限公司、普宙飛行器科技(深圳)有限公司、傳神語構成。
在成立儀式現場,聯盟成員也表達了目標和雄心。
希望從各自擅長的領域展開合作,通過這樣一種產業聚合的模式,解决專用AI走向通用AI的挑戰。
不僅是產學研融合,由於聯盟成員幾乎涉及到各行各業,AI創新成果也能及時落地到行業中,帶來實際價值,並輻射到更廣闊領域。
為什麼是現在?為什麼是武漢?
實際上,瞭解了“多模態”,也就知道並非新事物新概念。
於是問題也就來了——
那為什麼多模態人工智慧產業聯盟的成立,會是現在?聯盟基石“紫東.太初”是在武漢孵化?
個中緣由,其實包含了三方面。
因為這是在聚集了天時地利人和多方面因素、謀定而後動的一個成果。
首先來看天時——
多模態人工智慧產業聯盟的成立,是順應AI發展的大勢所趨的結果。
現下,AI發展的最大趨勢是什麼?
是從單點科技走向真正的通用技術、從單模態走向多模態、從大模型走向超大模型。
單一算灋的人工智慧應用已逐漸不能滿足應用需求,融合電腦視覺、自然語言理解、智慧決策多方面能力的通用人工智慧,開始大放异彩。
AI處理任務也不再只是收集單一資訊,而是跨越影像、文字、語音、語義等多種模態,從中抽象出更高層的特徵向量來解决問題。
以此同時,隨著任務的複雜程度變高,算灋模型的規模也在日漸擴大。
這些趨勢上的變化,在應用層面上也早有顯露。
比如AI最初的商用,在視覺和核驗身份等方面,但現在,衣食住行用方方面面,都開始有AI滲透的影子。
背後原因,正是因為它在不斷向多模態、通用性上靠攏。
而且這還可能只是開始的開始。
其次,地利,武漢的優勢不言而喻。
作為長江經濟帶覈心都市、中部崛起戰畧支點,國家對於武漢科技發展的重視程度可見一斑。
2020年9月,科技部正式發文批復,支持武漢建設國家新一代人工智慧創新發展試驗區。
不到一年時間,2021年5月31日,武漢人工智慧計算中心正式竣工並投入運營,成為科技部批復的18個國家人工智慧創新發展試驗區中,最早落地的一個。
該人工智慧計算中心,基於升騰AI基礎軟硬體平臺建設,在原來100P的基礎上已擴容高達200P FLOPS。
什麼概念?
要知道,100P FLOPS就可相當於50萬臺電腦加起來的算力,每秒運算次數達百億億次。
如此強悍的算力,一方面可以支持一個都市來運行許多重大AI項目,比如自動駕駛、智慧交通、智慧製造、都市大腦等等。另一方面,作為智慧時代的城市基礎設施,也是支撐其他場景下AI落地的關鍵所在。
這也是為什麼,在全國各大城市爭相建設AI算力大型基建的背景下,武漢會搶佔先機、拔得頭籌,在人工智慧計算中心的建設中,如此堅決果斷。
當然,多模態人工智慧產業聯盟在武漢成立,也就順利成章——畢竟計算中心已經有了,就意味著黑土地已經準備好了。
最後,人和。
天時也好,地利也好,背後都是武漢自身對於發展AI、抓住智慧時代發展機遇的渴求。
今年7月,武漢出臺了《武漢國家新一代人工智能創新發展試驗區建設若幹政策》,提出8條激勵措施,最高提供5億元資金支持。
具體措施上,武漢開創了人工智慧一中心四平臺的“武漢模式”。
“中心”就是人工智慧計算中心。
四大平臺則是公共算力服務平臺、應用創新孵化平臺、產業聚集發展平臺、科研創新和人才培養平臺,主要面向千行百業。
現時,武漢已集聚超過500家人工智慧企業,相關產業規模超過200億元。預計2023年武漢AI覈心產業規模將超過500億元,帶動相關產業規模超過5000億元。
而發展之關鍵,不僅要有基礎設施,還在於人才。
作為中國四大科教中心之一,武漢從來不缺人才,不然也不會“惟楚有才”。
而它現在進一步鼓勵高校和龍頭企業,做好產學研結合。例如創建人工智慧重點實驗室、研究院等創新科研組織,更是為了進一步培養關鍵科技人才。
加之這些年,武漢本身在科技產業發展上傾注了諸多心血。
比如吸引了華為、小米、聯想等科技龍頭企業落戶,還打造了“光穀”這一高新技術發開區名片。
種種努力,樁樁件件,都是對智慧時代機遇的志在必得。
如果說曾經,武漢和湖北,被質疑過“錯失”互聯網發展機遇,那麼現在,AI時代大潮中,就得加倍補回來。
所以回過頭來再看人工智慧計算中心的建立、多模態人工智慧產業聯盟的成立,似乎都水到渠成,都是武漢要抓住AI機遇更快發展的努力和成果。
而剩下的問題,只有一個,武漢的幹勁,用對地方了嗎?
AI高速路上的武漢
時代級的機遇,往往成果也需要更長時間來等待。
但從大方向上,武漢的幹勁,使在正確的方向上。
從AI發展維度來看,經歷了技術研發、商用檢驗,現在正在進入產業場景下的大規模落地行程中。這種落地,深入各個場景,會與多元產業的方方面面結合,就像語音之於互動,視覺之於視頻,覆蓋到產業的方方面面。
所以“多模態人工智慧產業聯盟”因何成立,就是因為武漢看到了這種趨勢而成立,說明武漢準確把握了AI發展的趨勢,給產業發展提供了搶佔先機的機會。
其次,從經濟發展層面來說,都說AI是新動能,提供了新機遇,但如果能在發軔期就把機遇變成機制,產生飛輪效應,就能培養基礎生態。
現在,“多模態人工智慧產業聯盟”就是這樣的基礎生態,它可以提供更多的需求、機遇和崗位。
一方面,可以最大限度留住武漢輩出的人才;另一方面,還能憑藉各項人才政策,吸引更多優秀的人才前來,最終形成人才-產業生態-經濟發展的正向迴圈。
最後,要致富先修路,AI時代也一樣。
而AI時代的“高速路”、基礎設施是什麼?歸根溯源,還是人工智慧計算中心。
武漢,正是準確預判了這種預判,在升騰AI的加持下,各大一線都市在智慧時代的競速中,率先把握住了這種機遇。
於是九省通衢武漢,現在也是AI高速路上的武漢。
評論留言