您的位置 > 首頁 > 商業智能 > 圖像和語音技術落地難題如何突圍?六位大咖觀點交鋒

圖像和語音技術落地難題如何突圍?六位大咖觀點交鋒

來源:電子發燒友 | 2019-06-29 | 發布:經管之家


2019年,人工智能火了。其重要表現:人工智能在消費終端和商用終端的應用將不斷加強。IDC報告顯示,2019年超過65%智能終端產品引入人工智能應用,包括手機、智能家居產品。更重要的是,2019年超過10%的商用終端產品也開始采用人工智能應用,商用辦公助手成為新亮點。IDC預計,到2022年將有60%的商用終端產品采用人工智能。

IDC調研報告中的一大亮點是:圍繞中國任務型AI應用中的亮點,超四成是計算機視覺,超四成是語音語義。

6月28日,由主辦的“人工智能領域圖像和語音識別技術論壇“在深圳市南山區盛大召開,圍繞計算機視覺、圖像和語音語義的熱點話題,來自云天勵飛的芯片規劃總監王監、Open AI?LAB 產品經理彭月濤、思必馳IoT商務總經理王盱林、聲希科技聯合創始人孫立發博士、杭州國芯人工智能事業部總經理凌云和瘋殼科技有限公司CTO劉燃帶來了精彩的人工智能趨勢前瞻和落地案例分享。

精彩問題覆蓋了四大方面:在算法不斷演進、客戶需求不斷變化的時代背景下,在智能安防、智慧樓宇和智慧社區領域,AI芯片公司如何為垂直化的應用場景設計出最合適的產品?AI應用不僅在云端,更多向邊緣端轉移,嵌入式AI發展具備哪些明顯趨勢和典型應用場景?語音AI芯片在IoT場景中有哪些實踐應用?AI智能虛擬人主要在哪些領域獲得廣泛應用?小編為大家整理其中的精彩觀點,詳細內容如下。

云天勵飛:AI芯片市場爆發,自研芯片挑戰和機會并存



圖:云天勵飛的芯片規劃總監王監

云天勵飛的芯片規劃總監王堅指出,人類數字化進程已經30年,到2020年,在5G和人工智能的推動下,進入AI IoT時代,人與人,人與物和物與物連接的時代,數據將呈現爆發式增長。

IDC預測,到2025年,全世界將有超過 1500 億臺聯網設備,每個聯網的人每天平均會有超過 4,900 次數字化數據互動?相當于每隔18秒就會有1次數字化互動。全球數據從2016年的20ZB到2025年175ZB,實時數據占比從2019年15%到2025年達到30%,這種數據必須通過AI計算進行提煉,產生數字結構化信息,才能為人類所用。這些要求對實時化、本地計算帶來非常大的壓力。

AI芯片作為AI應用落地的重要鏈條之一,IDC預測,2025年,云側芯片規模將達到150億美元,邊緣計算和端芯片市場規模約516億美元,AI進入爆發期,將帶來千億芯片市場空間。

王堅表示,垂直場景化芯片制定,云天勵飛有自己獨特的優勢,但是AI芯片自研也面對困難和和挑戰,高額的研發支出是懸在巨頭與初創企業頭上的劍,以英偉達Xavier 16G模組售價7999美元,投入20億美金開發,預計賣到2000萬套可以回本。終端芯片的成本壓力可想而知。

王堅分析說,打開人工智能產業化有三大鑰匙:芯片+算法+數據,環環相扣,缺一不可。芯片是否成為人工智能發展的一個障礙?垂直應用場景特征:多模態,圖像、語音、語義和低時延,高能效、低成本和高安全。AI芯片作為隱私度很高的芯片,在AIoT時代,一定要注意安全性。AI芯片要實現可以編程,可以進行大規模并行處理,可以進行本地化訓練和推理,減少芯片和外部存儲空間的交互。

已經成立4年的云天勵飛,已具備“算法+數據+芯片+應用+服務”端到端全棧式解決方案,王堅表示,云天勵飛2015年推出的云天“深目”系統,是全球首套動態人像識別系統,目前已經穩定運行超過兩年,協助公安破案超1萬宗,落地中國和東南亞86個大中型城市。

2018年8月,云天勵飛自主設計DeepEye1000,已經投片生產,定位自主可控的神經網絡處理器芯片,為深度學習算法定制專用指令集處理器ASIP,視覺算法架構設計,支持FP16/INT16/INT12/INT8數據類型,超高能耗比~2Tops/W。這顆芯片還是視頻編解碼功能的芯片,支持4K P30,可以支持多個豐富的外設接口。通過指令集提供可編程,帶寬可編程、算法可編程,還有數據可編程。除了芯片外,我們還提供芯片配套開發工具。提供全棧式工具鏈,兼容Caffe等主流框架。我們在前端模組做到200張抓拍能力。在邊緣智能端做到單機16路/32路視頻結構化能力。落地場景從智能安防,向智慧樓宇、智慧社區等多個場景擴展。

王堅透露,云天勵飛公司已經與海康威視、萬科、京東、海爾、富士康展開合作,將AI芯片帶入更多應用領域。

Open AI Lab:端側AI計算在嵌入式場景下的三大趨勢



圖:Open AI LAB 產品經理彭月濤

Open AI Lab產品經理彭月濤首先介紹了公司的定位和聚焦方向,開放智能機器(上海)有限公司,簡稱OPEN AI LAB,由Arm生態加速器安創空間、全志科技、地平線機器人于2016年12月發起成立。業務模式聚焦AI產業化,基于AI落地為目的,探討AI技術在嵌入式落地的問題。

當前AI應用普及化的路上有三大痛點:一是云端部署和運營成本過高:視頻處理要求帶寬大和時延低、GPU和存儲陣列昂貴且功耗高,AI系統趨勢是大量AI計算需要向前端本地化遷移,云邊端分布計算;二是前端算力弱、方案性能差:當前移動計算芯片跑NN太慢、市場上缺性價比高的邊緣AI芯片,OPEN AI LAB提供的高效方式是充分挖掘現有硬件(芯片/模組)AI潛力,保護既有投資;三是算法開發適配難、效率低:終端芯片沒有統一高效的算力平臺、算法開發者無法適配硬件差異,OPEN AI LAB推出分工協作模式,算法開發者無須精通硬件,系統集成商可自由挑選算法。

OPEN AI LAB將解決這三大痛點視為其核心價值。彭月濤表示,嵌入式AI呈現三大趨勢:第一、邊緣計算,數據從云向端側遷移,端云結合。云端算力需要解決帶寬問題,第二、嵌入式端側,需要做低時延、實時性的數據處理,進行推理,產生高質量的信息;第三、嵌入式AI產品全面滲透金融、醫療、安防、零售、制造業、以及家庭等行業,在物聯網領域的智能終端,如無人機、可穿戴設備、智能電視、智能攝像頭等都有典型的應用。

目前,OPEN AI LAB為ARM生態開發者提供的重要的設計平臺和工具主要有三塊:EAIDK是全球首個采用Arm架構的人工智能開發平臺,專為 AI 開發者精心打造,面向邊緣計算的人工智能開發套件;Tengine是一款輕量級模塊化高性能的神經網絡推理引擎,專門針對Arm嵌入式設備優化;Tengine-Lite是近期推出的,專為MCU設計的超輕量級AI推理框架,它能夠適用于極端苛刻的MCU嵌入式開發環境。

在嵌入式AI開發平臺,Open AI Lab可以做到:

1、和SoC廠家合作直接合作,以工業產品品質實施軟、硬件平臺開發。提供穩定、可靠的軟硬一體化解決方案;

2、以商業應用案例支持AI算法應用教學,加速初學者;

3、提升算力、解決碎片化問題,賦能開發者;

4、“軟硬平臺+算法應用”一體化AI開發套件。與Arm生態系統合力打造開放,通用、標準化的端側智能開發平臺,配合Arm Open AI Platform戰略;

5、行業客戶、創客、極客AI創新驗證平臺;

6、智能產品研發、產品開發企業,產品原型開發、驗證、以及小規模產品部署試點。

彭月濤介紹, OPEN Al LAB聯合Arm中國、瑞芯微正式發布了面向教育及創客的嵌入式人工智能應用開發平臺 EAIDK-610。EAIDK-610運行典型的深度學習算法,同等條件下,可對基于原始Caffe的實現進行3-5倍的加速,內存占用下降1倍,快速進行算法和原型驗證。

Open AI Lab定位學校教育的綜合方案提供商。聯合企業及國家教育管理結構,擴大證書和自有比賽的影響力。有自然語音處理套件,有機器人、無人機套件可以提供給開發者,AI開發平臺上有本地語音庫、機器視覺庫、嵌入式深度學習框架和異構計算庫,在基礎軟件部分支持操作系統和設備驅動。

思必馳AI語音瞄準三大場景,今年或發力可穿戴和會議轉寫

創業之初,思必馳業務聚焦于口語教育,自2014年謀求轉型剝離教育業務后,開始專注于智能語音開發賦能終端,并推出國內第一個對話智能云平臺。在2015年~2018年期間,先后獲阿里,富士康,MTK等投資,AI垂直終端產品研發進程得以進一步加快。



圖:思必馳IoT商務總經理王盱林

“發展至今,公司已經不僅僅限于算法。”,思必馳IoT商務總經理王盱林表示,思必馳從小步慢跑已經逐漸成長為國內專業的對話式人工智能平臺公司,擁有全鏈路的智能語音語言技術,自主研發了新一代的人機對話操作系統(DUI),和人工智能芯片;為車聯網、IOT、以及眾多行業場景合作伙伴提供自然語言交互解決方案。

王盱林指出,思必馳AI語音產品服務主要聚焦于三大場景,包括車載應用,消費類電子(如智能音箱、電視等)及機器人。值得一提的是,今年思必馳將新增智能穿戴和會議轉寫場景服務,譬如低功耗藍牙無線耳機TWS、手表。

在這些IoT場景落地應用中,依托思必馳智能語音交互技術可以展現出九大核心優勢。如遠場交互、口語對話、兼容有無屏、第三方心源、技能豐富、數據可視化、OTA升級、企業VIP服務、合作靈活。同時,寄希望于DUI平臺打通連接一個或多個IoT系統,實現全屋智能、互聯互通。

聲希科技:AI智能虛擬人在游戲和教育領域前景廣闊



圖:聲希科技聯合創始人孫立發博士

聲希科技聯合創始人孫立發博士強調指出,互聯網和人工智能時代的差別,互聯網紅利逐漸消失,APP應用已經增長非常緩慢,互聯網+解決信息不對稱的問題和連接的問題。還有很多問題無法解決,比如醫院一天看病人的數量有限,效率的問題和成本問題都無法解決,AI智能虛擬人可以幫助醫生提高效率,人工智能可以解決效率的問題。

未來人機交互往哪個方向發展?孫立發博士說,語音交互、動作手勢是趨勢,語音交互式NUI最自然的交互方式之一,在開車的時候,用語音發號施令,手機助手里面可以用語音進行交互。

聲希科技在AI智能虛擬人方面掌握四項關鍵技術:第一、發音糾錯技術和語音識別技術,包括單詞的重音,語音、語調是否正確。第二、自然語言處理和對話系統;第三、個性化語音合成。個性化體現在音色層面,可以定制奧巴馬、林志玲的聲音。核心技術四、圖像和視頻處理。未來可以實現自由對話,從語音合成,到圖像、視頻處理合成一體。

孫立發博士指出AI智能虛擬人需要的關鍵技術包括:語音合成模擬人的嘴巴,圖像識別模擬人的眼睛,自然語言處理和對話系統模擬大腦。

目前在教育領域,市場的痛點在于優質師資不足且成本高,中小培訓機構、英語APP等客戶提出虛擬老師的需求,聲希科技可以提供“雙師AI課堂解決方案“幫助客戶制作虛擬老師;在娛樂和游戲領域,市場的痛點是視頻錄制效率低且成本高,聲希科技可以提供”虛擬形象生成方案“幫助客戶制作虛擬主播。

可穿戴、車載、智能家居成AI語音未來典型場景應用

會上,杭州國芯人工智能事業部總經理凌云分享了AI語音芯片和應用結合實際落地的應用案例。并介紹國芯車載語音、智能音箱語音及語音電視(NationalChip AI+IOT)三大場景應用方案。



圖:杭州國芯片人工智能事業部總經理凌云

“AI自然語音交互,看似簡單實則難。”杭州國芯片人工智能事業部總經理凌云表示,隨著AI語音交互落地各場景中的應用越發普及,其中隱形的門檻或坑也隨之顯現,拾音&降噪,語音喚醒,AEC與聲學結構都是需要考慮的因素。

從應用端來看,凌云指出,AI語音應用領域的劃分主要是從人、車、家三部分考量。如針對人的可穿戴AI設備TWS耳機、手表、眼鏡等未來市場空間及應用將會非常廣闊。

第二部分是AI語音在車載的應用。從安全因素考慮,車載AI語音應用將會是未來市場的剛需場景,如車內音樂/電臺播放、導航及打電話應用。

第三部分,針對智能家居場景的語音應用。凌云認為,智能音箱會逐漸成為室內家居語音應用中的智慧中心,通過其控制室內其它用電設備。在未來藍牙遙控器將會被語音設備取替。

展望未來,凌云指出,語音交互體驗、語音AI芯片PPA及IoT滲透率將持續提升,語音將變成按鍵、觸摸后的又一個主流萬物交互方式。

IT軟硬件從業者,如何深入了解AI?

對于IT軟硬件的從業者、工程師或即將畢業的學生,在AI方面到底如何做?是去做算法,還是去研究芯片?帶著這個問題,瘋殼科技CTO劉燃給出了他的答案,“AI技術要落地到具體的產品上,需要有兩個部分,一是理論算法的研究實現,二是相關算法的使用。”



圖:瘋殼科技CTO劉燃

瘋殼科技CTO劉燃指出,針對理論算法的研究更適合科學家和資金雄厚的企業,至于其他99%的開發者則學會使用這些優質算法的接口應用于產品上即可。

會上,劉燃展示了兩款跟語音識別和人臉識別的開發套件,并附上了教材。所有的硬件原理圖包括通信代碼等都是全開放的,另外一款是已經量產的AI語音識別機器人,非常適合工程師和學校的開發者。

那么,對于18歲以下的青少年兒童,又該如何學習理解AI的技術呢?不急,瘋殼科技也帶來了一款黑科技。

在展示環節,瘋殼科技推出了這款針對青少年編程的“殼殼板”開源產品,它是把一些常用的工程物理傳感器集成在一個小板上,同時附帶一套開發的圖形化編程界面系統,使得青少年兒童上手容易,直接拖拽編程,做出各種各樣的實驗現象。

本文已經過優化顯示,查看原文請點擊以下鏈接:
查看原文:http://www.elecfans.com/d/974567.html

看圖學經濟more

京ICP備11001960號  京ICP證090565號 京公網安備1101084107號 論壇法律顧問:王進律師知識產權保護聲明免責及隱私聲明   主辦單位:人大經濟論壇 版權所有
聯系QQ:2881989700  郵箱:[email protected]
合作咨詢電話:(010)62719935 廣告合作電話:13661292478(劉老師)

投訴電話:(010)68466864 不良信息處理電話:(010)68466864
澳洲幸运8开奖网app