科達首席科學(xué)家章勇博士:大模型驅(qū)動行業(yè)AI創(chuàng)新與變革

來源:投影時代 更新日期:2023-09-12 作者:pjtime資訊組

    9月8日,2023中國(廈門)安防人工智能創(chuàng)新峰會上,科達首席科學(xué)家章勇博士發(fā)表了《從感知智能到?jīng)Q策智能—AI技術(shù)在安防領(lǐng)域的變革》的主題演講,重點聚焦安防+AI,大模型技術(shù)落地安防行業(yè)的廣闊前景與科達實踐。

 

    從深度學(xué)習(xí)技術(shù)到近兩年興起的大模型技術(shù),近十年,人工智能技術(shù)加速演進,引領(lǐng)各行各業(yè)加速向智能化躍升。

    章勇博士表示,現(xiàn)代人工智能的發(fā)展,為像科達這樣的安防廠商帶來了全新的活力和機遇。在人工智能領(lǐng)域,科達已有9年技術(shù)積累。2014年,科達就推出業(yè)內(nèi)首款感知型攝像機,使攝像機具備目標(biāo)檢測、屬性分析等感知能力,推動平安城市智能分析實現(xiàn)規(guī);渴鸷蛻(yīng)用;2020年,科達率先提出了AI像素級推理,發(fā)布AI超微光攝像機,為解決低照成像的難題帶來新范式,目前已在上海、武漢等20多個城市落地,有效改善了光污染,實戰(zhàn)優(yōu)勢明顯。

    目前,采用感知智能技術(shù)的多種產(chǎn)品和解決方案已在安防領(lǐng)域成功落地,成熟發(fā)展,持續(xù)優(yōu)化。另一方面,在認(rèn)知智能領(lǐng)域,傳統(tǒng)的深度學(xué)習(xí)模型無法很好的完成感知信息的深度理解和自然語言信息的深度理解兩大主要任務(wù),迫切需要新的人工智能范式來引領(lǐng)解題。

    著眼于大模型技術(shù)與安防行業(yè)實際應(yīng)用場景,科達給出了面向未來的對策——大模型KD-GPT。KD-GPT包含了三類大模型,分別是多模態(tài)大模型、行業(yè)大模型和AIGC大模型?七_大模型的生成式、多任務(wù)、行業(yè)化的優(yōu)點,將給安防行業(yè)的認(rèn)知智能方向上的飛躍提供強有力的武器。

    人工智能的時代仍在推進,在大模型的加持下會朝著決策智能的方向繼續(xù)前進,但另一方面,大模型仍有很多關(guān)鍵技術(shù)有待攻克,安防行業(yè)進入決策智能的時代任重道遠,科達將不斷強化自身技術(shù),加速智能創(chuàng)新發(fā)展,與行業(yè)伙伴攜手共同迎接智能新時代的到來。

    了解更多干貨,詳見章勇博士的演講全文(共3038個字,約需15分鐘)

    從感知智能到?jīng)Q策智能

    AI技術(shù)在安防領(lǐng)域的變革

    人工智能技術(shù),從上世紀(jì)五十年代提出以來,已經(jīng)經(jīng)歷了七十多年的發(fā)展。但人工智能成為全社會各行業(yè)進行產(chǎn)業(yè)化升級的基礎(chǔ)技術(shù),進而成為全球各國極為重視的關(guān)鍵戰(zhàn)略發(fā)展方向,還是最近這十年的事情。

    現(xiàn)代人工智能的出現(xiàn),從基于深度學(xué)習(xí)技術(shù)的感知智能開始,我們稱為AI 1.0時代。所謂感知智能,是讓機器真正具備像人一樣的視覺、聽覺、觸覺等感知能力。這也是人工智能在安防領(lǐng)域最為成功的落地應(yīng)用,比如特定目標(biāo)的檢測與分析。另一方面,人們顯然不滿足于人工智能只是看到、聽到、加工信息,而是希望機器能像人一樣進行學(xué)習(xí)、思考和推理,這就進入了認(rèn)知智能的領(lǐng)域。近兩年來,隨著大模型的興起,人工智能技術(shù)邁向認(rèn)知智能的步伐已大大加快,有了突飛猛進的發(fā)展。AI 2.0是一道分界線,2.0以下我們認(rèn)為傳統(tǒng)深度學(xué)習(xí)模型占據(jù)主導(dǎo)地位,而2.0之后的人工智能發(fā)展,更多的大模型技術(shù)將不斷涌現(xiàn)。再往前看,展望未來,我們希望人工智能技術(shù)能真正成為人工大腦,代替人類進行決策判斷,這是我們稱之為AI 3.0的決策智能時代,對人工智能技術(shù)來說,還有很長的一段路要走。

    現(xiàn)代人工智能的發(fā)展,為像科達這樣的安防廠商帶來了全新的活力和機遇;赝K州科達的人工智能發(fā)展歷史,我們從2014年就推出了第一臺感知型攝像機,代表著我們從感知智能進入了現(xiàn)代人工智能賽道,這九年人工智能技術(shù)的沉淀,為我們公司的安防產(chǎn)品、業(yè)務(wù)服務(wù),解決方案帶來了極大收益,涌現(xiàn)了一個又一個明星產(chǎn)品,比如科達的車輛二次分析系統(tǒng)、大規(guī)模的人像分析平臺、視綜產(chǎn)品、AI超微光攝像機等等,產(chǎn)生了巨大的經(jīng)濟效益和社會效益。

    AI 1.0:基于深度學(xué)習(xí)的感知智能

    感知智能是指將物理世界的信號通過攝像頭、麥克風(fēng)或者其他傳感器采集設(shè)備,借助語音識別、圖像識別等前沿技術(shù),映射到數(shù)字信息世界,將多元數(shù)據(jù)結(jié)構(gòu)化,并用人類熟悉的方式去溝通和互動。人們希望機器不是簡單的采集信息,而是能夠像人一樣去感知信息,這一愿望最終成為現(xiàn)實,完全得益于十年前出現(xiàn)的深度學(xué)習(xí)算法,帶來了我們稱之為AI 1.0的技術(shù)革命。

    在安防監(jiān)控行業(yè),最先得到應(yīng)用的深度學(xué)習(xí)算法的就是對人、車、物等感興趣目標(biāo)的分析,比如,與人相關(guān)的人臉識別、人體識別、衣著檢測、手勢識別和行為分析等;與車輛相關(guān)的車型、車標(biāo)、車牌、車色識別、車輛壞損分析、以及非機動車的識別和屬性分析;以及其它物體,如船舶、動物等等。

    當(dāng)前,這些基于深度學(xué)習(xí)的感知智能算法已經(jīng)成為了安防領(lǐng)域各個應(yīng)用中必不可少的工具,不僅大大減輕了人類的工作量,而且AI也看得更準(zhǔn)更清楚,因此成為在各個安防應(yīng)用中占據(jù)主導(dǎo)地位,為用戶帶來極大價值的功能。有關(guān)這些算法的優(yōu)化工作也一直在持續(xù)。

    AI 2.0:大模型驅(qū)動的認(rèn)知智能

    人們希望AI為我們做更多的事情,不僅僅滿足于對一個感興趣目標(biāo)進行分析,而是對場景具備一定的理解和學(xué)習(xí)能力,也就是希望機器能具備初步的認(rèn)知智能。

    認(rèn)知智能是以人類認(rèn)知體系為基礎(chǔ),以模仿人類核心能力為目標(biāo),以信息的理解、存儲、應(yīng)用為研究方向,以感知信息的深度理解和自然語言信息的深度理解為突破口的新一代理論、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué)。

    認(rèn)知智能的兩大方向,感知信息的深度理解和自然語言信息的深度理解,在安防領(lǐng)域都有直接的應(yīng)用。首先我們來看在安防領(lǐng)域中對感知信息的深度理解,有別于AI 1.0時代對人、車、物等特定目標(biāo)的分析,在安防領(lǐng)域還有非常多的泛監(jiān)控應(yīng)用,比如在交通、政法、城管、校園、工地等場景下的人群態(tài)勢、安全事件、數(shù)據(jù)參量甚至衛(wèi)生環(huán)境分析。這些應(yīng)用,更多的強調(diào)了場景中目標(biāo)與目標(biāo),目標(biāo)與周圍環(huán)境的相互關(guān)系,因此需要人工智能具有一定的理解和辨識能力。我們稱之為場景圖像理解,一些典型的例子包括交通事件分析(如行人穿越、障礙物檢測、非法停車);道路安全事件分析(如淹水、積雪、大霧、火焰);人員聚集、市域治理類事件分析(如占道經(jīng)營、亂丟垃圾、黑煙車)。

    用傳統(tǒng)深度學(xué)習(xí)算法來完成這些場景理解任務(wù)是非常困難的,由于這些場景的多樣性和任務(wù)的多變性,帶來了數(shù)據(jù)難以采集、標(biāo)注困難、標(biāo)注成本高、算法泛化性能差、魯棒性不足、算法交付時間長、可擴展性差等諸多問題,這些問題不解決,認(rèn)知智能的第一個突破口就無法攻克。

    另一個在安防領(lǐng)域中的認(rèn)知智能方向,是基于自然語言信息的行業(yè)知識理解,對于安防廠商提供的行業(yè)解決方案,就必須要考慮行業(yè)知識的應(yīng)用。傳統(tǒng)上,這部分的應(yīng)用是由知識圖譜來完成的,如公安知識圖譜,通過數(shù)據(jù)分析、文本語義分析等手段,抽取出人、物、地、機構(gòu)、虛擬身份等實體,并根據(jù)其中的屬性、時空、語義、特征、位置聯(lián)系等建立相互關(guān)聯(lián),構(gòu)建一張多維多層的、實體與實體、實體與事件的關(guān)系網(wǎng)絡(luò)。

    如司法的知識圖譜,將法律領(lǐng)域中的實體、屬性和關(guān)系進行體系化梳理,并建立邏輯關(guān)聯(lián),通過知識圖譜技術(shù)進行數(shù)據(jù)挖掘、輔助決策、洞察知識領(lǐng)域動態(tài)發(fā)展規(guī)律。

    但是,知識圖譜構(gòu)建與應(yīng)用,有非常多的挑戰(zhàn),很難推廣。首先,構(gòu)建知識圖譜需要大規(guī)模自動化知識獲取,知識圖譜需要大量的知識作為基礎(chǔ)。知識來源包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù),手工從知識來源中提取的方法滿足不了大規(guī)模的構(gòu)建需求;其次,需要建立高質(zhì)量的知識圖譜構(gòu)建模式,需要定義清晰的實體和關(guān)系,使用合適的數(shù)據(jù)源和知識表示方式;此外,需要持續(xù)更新迭代知識圖譜,知識本身不是封閉的,而是在不斷的擴展和變化,知識圖譜難以處理不完整或是動態(tài)變化的知識。

    那么,對于認(rèn)知智能的這些問題,我們的對策是什么呢?這就是大模型,我們推出了KD-GPT,包含了三類大模型,分別是:多模態(tài)大模型、行業(yè)大模型,和AIGC大模型。

    KD-GPT是生成式的AI模型,有非常多的優(yōu)點,這里就不一一贅述了。下面說說KD-GPT大模型兩個最基本的優(yōu)點,首先大模型是多任務(wù)的,以前的深度學(xué)習(xí)模型,是一個模型對應(yīng)一個任務(wù),而現(xiàn)在大模型,則是一個模型可以應(yīng)對多個下游任務(wù);其次,KD-GPT大模型的網(wǎng)絡(luò),初步具備了信息的檢索和思考理解能力,當(dāng)然這是和大模型基于Transformer的結(jié)構(gòu)分不開的。

    下面我們就來看看科達的多模態(tài)大模型,這個大模型可以解決所有數(shù)據(jù)難問題,比如我們要檢測一幅圖片中是否有煙霧出現(xiàn),我們只要輸入提示語:“煙霧”和待檢測的圖片,大模型就可以直接輸出檢測結(jié)果,無需成千上萬張的煙霧圖片進行訓(xùn)練。

    科達的行業(yè)大模型,則采用了通用大模型+行業(yè)數(shù)據(jù)+訓(xùn)練調(diào)優(yōu)的思路,使得這個大模型可以輕松解決原來構(gòu)建行業(yè)知識圖譜需要完成的若干任務(wù),在做好知識推理和質(zhì)量評估之后;行業(yè)大模型就可以完全替代行業(yè)知識圖譜的功能。

 

    科達的另一類大模型,AIGC圖像大模型,是為了生成大量的訓(xùn)練數(shù)據(jù)而服務(wù)的,限于篇幅,這里就不作介紹了。

    AI 3.0:未來的決策智能

    從認(rèn)知智能到?jīng)Q策智能需要在數(shù)據(jù)、學(xué)習(xí)、多模態(tài)數(shù)據(jù)處理、決策樹模型和個性化算法等方面取得重要進展,這將會助力數(shù)字經(jīng)濟和智能化時代的到來。

    大模型是實現(xiàn)決策智能的重要工具之一,因為它們具有高效的數(shù)據(jù)處理能力和強大的特征工程能力,可以這么說,有了大模型,人們才真正看到了決策智能、人工大腦的曙光。

    但是,我們也必須認(rèn)識到大模型存在的若干問題:

    公正性:如何不被大量的訓(xùn)練數(shù)據(jù)帶偏?如何不被提示(prompt)帶偏?

    透明性:如何對大模型的決策過程進行評估?又如何對大模型的決策過程進行監(jiān)督?

    普惠性:大模型的訓(xùn)練和調(diào)優(yōu),往往是昂貴的;對于像科達這樣中等的安防公司怎么做大模型?同樣,大模型的使用價格也不菲,對于科達的客戶,怎樣才能得到人人可用的大模型?

    友善性:如何保護知識產(chǎn)權(quán)(人類的或是某個大模型的)不被其它大模型侵犯?如何避免大模型提供錯誤信息甚至引誘犯罪?

    總之,大模型的出現(xiàn),被稱之為AI的第二次革命。但在技術(shù)成熟度的曲線上,大模型還離成熟期很遠。不僅如此,安防領(lǐng)域要實現(xiàn)真正的決策智能,大模型也不會是唯一的關(guān)鍵技術(shù),還需要人工智能持續(xù)進行創(chuàng)新性發(fā)展,是一個任重道遠的征途。

廣告聯(lián)系:010-82755684 | 010-82755685 手機版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時代網(wǎng) 版權(quán)所有 關(guān)于投影時代 | 聯(lián)系我們 | 歡迎來稿 | 網(wǎng)站地圖
返回首頁 網(wǎng)友評論 返回頂部 建議反饋
快速評論
驗證碼: 看不清?點一下
發(fā)表評論