隨著人工智能技術的不斷發(fā)展,機器學習作為其中的核心分支,已經取得了令人矚目的成果。然而,傳統(tǒng)的機器學習主要依賴于單一模態(tài)的數據,如文本、圖像或音頻等,忽略了不同模態(tài)數據之間的豐富信息和互補性。為了充分利用多模態(tài)數據中的信息,多模態(tài)機器學習應運而生,成為了人工智能領域的一個研究熱點。
什么是多模態(tài)
首先我們要了解什么是“模態(tài)”?模態(tài)是指一些表達或感知事物的方式,每一種信息的來源或者形式都可以成為一種模態(tài)。如人體有觸覺、聽覺、嗅覺;信息的媒介有語音、視頻、文字;多種多樣的傳感器,如雷達、紅外、加速計等。多模態(tài),亦即從多個模態(tài)表達或感知事物。通常主要的研究模態(tài)為文本、語音和視覺。
相較于單模態(tài),多模態(tài)有什么優(yōu)勢呢?首先,在相同條件下收集的多模態(tài)數據使得后續(xù)的分析預測更加魯棒。其次,多模態(tài)數據相較于單模態(tài)數據提供了更加完備互補的信息。最后,多模態(tài)系統(tǒng)能夠處理部分模態(tài)數據缺失的狀況。單模態(tài)系統(tǒng)在模態(tài)數據缺失時會失去功能,例如在人物不說話的時候,單模態(tài)的語音情感識別模型無法分析人的情感;在面部被遮擋的時候,單模態(tài)的表情情感識別模型無法分析人的情感,而融合語音和面部表情的多模態(tài)分類器可以解決以上兩種狀況。
多模態(tài)涉及多模態(tài)學習、多模態(tài)交互、多模態(tài)搜索等多個方面,本文中主要探討多模態(tài)學習。
多模態(tài)學習是指利用來自不同模態(tài)的數據進行機器學習,這些數據可以包括文本、圖像、音頻、視頻等。多模態(tài)學習的目標是結合不同模態(tài)的數據,挖掘出它們之間的內在聯(lián)系和互補信息,以提高機器學習模型的性能和泛化能力。
多模態(tài)學習原理
多模態(tài)學習主要分為模型無關和模型相關。模型無關的劃分不依賴于特定的機器學習算法,主要關注模態(tài)的融合階段;模型相關的劃分則關注特定類型的機器學習算法。
模型無關多模態(tài)學習是最早的研究內容,優(yōu)點在于可以使用任意單模態(tài)分類器或者回歸器實現。模型無關的多模態(tài)學習分為早期融合、后期融合以及混合融合三類。早期融合通過利用模態(tài)之間的相關性和交互性從特征層出發(fā)進行表示學習,常見方法有串接和主成分分析。早期融合在訓練階段只需要一個模型,相較于后期融合和混合融合更簡單。然而當模態(tài)存在缺失或者模態(tài)不配對時,早期融合無法很好利用該模態(tài)信息。后期融合在模型決策階段進行融合,為每一個模態(tài)訓練一個模型,可以輕松處理模態(tài)缺失的問題。然而后期融合忽略了模態(tài)之間低層語義的相關關系?;旌先诤辖Y合早期融合和后期融合,可以解決模態(tài)缺失和利用模態(tài)低層語義的相關關系,在多媒體事件檢測等領域取得的成功應用。
由于模型無關的多模態(tài)學習很容易使用單模態(tài)方法實現,沒有針對多模態(tài)數據進行方法研究,因此并不能很好的捕捉多模態(tài)的聯(lián)合表示方式。模型相關的多模態(tài)學習從模型角度入手對多模態(tài)數據進行研究,主要有三類方法:基于核方法的、基于概率圖模型的和基于神經網絡的方法。這三類方法的原理不在此細究。
多模態(tài)學習優(yōu)點
Jeff Dean在2019年年底NeurIPS大會上提到機器學習趨勢:多任務和多模態(tài)將成為突破口。多模態(tài)是未來機器學習的趨勢,因為它具有以下優(yōu)點:
信息豐富性:不同模態(tài)的數據提供了豐富的信息,如文本描述了事物的概念和屬性,圖像展示了事物的外觀和結構,音頻則反映了事物的聲音和節(jié)奏。結合這些信息,可以更全面地了解事物的本質和特征。
互補性:不同模態(tài)的數據在某些情況下可能存在噪聲或缺失,而多模態(tài)學習可以利用其他模態(tài)的數據進行補充和糾正,從而提高模型的魯棒性和準確性。
泛化能力:多模態(tài)學習可以幫助模型學習到不同模態(tài)數據之間的共同規(guī)律和模式,從而增強模型的泛化能力,使其能夠處理更多樣化和復雜的數據。
多模態(tài)的挑戰(zhàn)與方法
雖然多模態(tài)學習具有巨大的潛力,但在表征和特征融合等方面仍存在一些問題,我將其分為了五大挑戰(zhàn):
特征表達:通過多模態(tài)特征的互補性,有針對性選擇和設計相應的模型和算法來表達多模態(tài)數據。但多模態(tài)數據的異構型使得構造這種語義統(tǒng)一的表達具有較大的挑戰(zhàn)性。例如,純文本大多形式是助記符,但音頻和視覺數據表達形式卻是信號。
映射:它實現將數據從一種模態(tài)關聯(lián)到另一種模態(tài)。不僅數據異構,在大多情況下不同模態(tài)之間的關聯(lián)是通過人的主觀從語義角度認定的關聯(lián)。因此這種人為認定的關聯(lián),常被按照人為理解的方式關聯(lián)在一起,而這種關聯(lián)方式未必是最優(yōu)的。
同步:將來自兩個不同模態(tài)數據中的相應部分的同步,難以對齊。例如,希望將視頻與需要同步的字幕文本對齊。為了解決這個對齊問題,需要考察不同模態(tài)之間的相似性,而選擇合適的相似性度量標準也是一個挑戰(zhàn)。
融合:將多個模態(tài)的信息融合起來完成預測。因不同模態(tài)的數據可能具有不同的信息量和噪聲,帶有不同信息量的數據之間的融合可能導致預測能力下降。
協(xié)同學習:這個挑戰(zhàn)主要在于模式、表達和預測模型之間傳遞知識。協(xié)同學習有助于在一個不同的的模態(tài)上計算另一個模型。
為了解決這些挑戰(zhàn),我們需要不斷優(yōu)化數據獲取與處理流程、涉及高效的融合策略、充分利用深度學習技術,以解決多模態(tài)學習在表征、對齊、融合等方面的難題。
多模態(tài)的應用前景
多模態(tài)能夠應用在具有同源不同視角數據的應用場合:視聽語音識別、圖像標注、行為檢測、跨模態(tài)檢索、跨模態(tài)哈希、視頻跟蹤等。
視聽語音識別:最早的多模態(tài)學習應用是視聽語音識別,現在最新的應用是視頻標注,它可以根據視頻,生成視頻對應的文本描述。
跨模態(tài)檢索:隨著文本、圖像、視頻、音頻和三維模型等多媒體數據的快速增長,跨媒體檢索越來越具有吸引力,用戶可以通過這些數據獲得不同的結果。通過輸入眾多媒體類型的任一種類型輸入作為查詢條件,檢索得到同一類型或者不同類型語義匹配的異構的媒體數據。
多模態(tài)機器學習作為人工智能領域的一個重要分支,具有廣闊的應用前景和巨大的發(fā)展?jié)摿ΑkS著技術的不斷進步和應用場景的不斷拓展,多模態(tài)學習將在未來發(fā)揮更加重要的作用,推動人工智能技術的不斷創(chuàng)新和發(fā)展。
多模態(tài)交互技術一直是北京中煙創(chuàng)新科技有限公司(簡稱:中煙創(chuàng)新)研究重要方向之一,多模態(tài)交互在中煙創(chuàng)新多產品和項目中都有應用,多模態(tài)交互技術和中煙創(chuàng)新智慧審核平臺有機結合,實現了更為高效的人機協(xié)同。
在多模態(tài)交互技術的推動下,人機協(xié)同的方式將越來越多樣化、智能化。未來,中煙創(chuàng)新將多模態(tài)交互技術和人機協(xié)同應用到各個領域,提升人類的交互品質和辦公效率。
版權聲明:本文內容由互聯(lián)網用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 舉報,一經查實,本站將立刻刪除。