【
智慧城市網 企業關注】近日,中國科學院合肥物質院智能所先進制造中心王紅強研究員團隊提出一種寬域跨模態
機器視覺AI模型,突破了傳統單域模型跨模態信息處理瓶頸,實現了跨模態圖像檢索技術新突破。該研究成果被計算機視覺頂會(歐洲計算機視覺大會,ECCV2024)正式接收。
跨模態機器視覺研究是當前人工智能研究的前沿領域與主要挑戰之一,難點在于如何識別模態間的一致性和互補性。傳統方法通常在圖水平和特征水平上進行,往往受限于信息粒度過大和圖像資源稀缺等問題。科研團隊發現,相比圖和特征,細節關聯在多數情況下更好地保持了跨模態間的不變性。
為此,科研團隊提出了一種寬域信息挖掘神經網絡(WRIM-Net),通過構建全域交互學習機制實現了在空間域、通道域以及尺度域等多域中的細節關聯挖掘,突破了傳統單域模型的局限性。此外,通過設計跨模態關鍵實例對比學習模塊有效引導了網絡提取模態關聯信息。在驗證實驗中,不僅在
標準SYSU-MM01和RegDB數據集上,還在最新的大規模跨模態LLCM數據集上證實了所提出模型的有效性,多項關鍵性能指標首次突破90%,比如在SYSU-MM01上R1指標達92.1%,在RegDB上mAP指標達90.5%,接近實際應用水平。該模型可用于視覺追溯與檢索、多模態大模型、醫學影像分析、安防監控等多個人工智能應用領域。
博士生吳勇敢為文章的第一作者,王紅強為通信作者。該研究工作得到了國家自然科學基金項目、中國科學院設備開發、安徽省重點研究與開發計劃等科研項目的支持。
據悉,歐洲計算機視覺大會(ECCV)是計算機視覺領域的頂尖國際學術盛會之一,與ICCV和CVPR并列“三大頂會”。自1986年起,ECCV每兩年舉行一次,聚焦計算機視覺的全方位研究,包括圖像與視頻的處理、分析和理解,及其在機器學習、模式識別、
機器人、醫學影像、AR/VR等領域的應用。
跨模態信息關聯性與寬域信息挖掘模型原理
版權與免責聲明:
凡本網注明“來源:智慧城市網”的所有作品,均為浙江興旺寶明通網絡有限公司-智慧城市網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智慧城市網”。違反上述聲明者,本網將追究其相關法律責任。
本網轉載并注明自其它來源(非智慧城市網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。