《Decision Support Systems》:Which nonverbal cues engage you? The role of speakers' acoustic characteristics and presence in user-generated videos
編輯推薦:
用戶生成視頻的語音特征與觀眾參與度的非線性關系及其視覺調節效應研究;贐ilibili平臺40,742次觀察和在線實驗,發現音調、強度呈U型關系,抖動、 shimmer呈倒U型,均通過情感喚醒中介,且演講者存在感強化了強度與 shimmer的效應。
趙攀|王玲|李晨偉|盧耀斌
華中科技大學管理學院,武漢430074,中國
摘要
隨著社交媒體滲透到我們的日常生活中,視頻分享平臺已成為信息交流和內容傳播的主要場所。然而,非語言線索如何驅動觀眾對用戶生成視頻的參與度這一機制仍不清楚;谇楦袀魅纠碚摚覀冄芯苛苏f話者的聲音線索(音高、音量、抖動和閃爍)與觀眾參與度之間的曲線關系,以及視覺線索(說話者存在感)的調節作用。通過分析來自Bilibili的40,742條觀察數據和一項在線實驗的結果,我們發現音高/音量與觀眾參與度之間存在U形關系,而抖動/閃爍與觀眾參與度之間存在倒U形關系,這兩種關系都受到情感喚醒的調節。說話者的存在感增強了音量的U形效應和閃爍的倒U形效應。本研究揭示了非語言線索在用戶生成視頻中的獨特作用,為社交媒體內容創作者提供了實用指導。
引言
隨著社交媒體在日常生活中的高度普及,視頻分享平臺已成為信息傳播和娛樂的主要平臺[1]。像YouTube和Bilibili這樣的平臺現在托管著數十億個不同類型的視頻。根據最新報告,到2026年,全球視頻市場規模預計將達到1493.4億美元。這些平臺上的用戶數量也在迅速增長。數據顯示,截至2025年,YouTube的日活躍用戶超過1.22億,月活躍用戶超過25億;而Bilibili的日活躍用戶數量在2024年接近1.04億[2]。
盡管視頻分享行業蓬勃發展,但這些平臺仍面臨著參與度下降的問題。例如,YouTube的參與度從2023年的3.97%下降到2024年的3.87%。并非所有視頻都能成功吸引觀眾的參與,尤其是那些缺乏吸引流量渠道或引人入勝呈現方式的視頻[1]。然而,積極的參與度可以提高內容的可見性并傳遞積極信號[3],激發創作者的積極性并增強觀眾的忠誠度[4];而低參與度可能導致內容產出、多樣性和質量的下降[5]。因此,如何提高觀眾參與度已成為視頻分享行業可持續發展的關鍵問題,需要立即關注。
與基于文本的用戶生成內容不同,用戶生成的視頻利用聲音和視覺線索來吸引觀眾[6]。多模態非語言線索能夠有效傳遞信息,并在推動內容傳播和觀眾參與度方面超越文字內容[7]。特別是,攜帶豐富情感信息的聲音線索在溝通中起著至關重要的作用[8]。面部表情和身體動作等視覺線索則提供了額外的信息[9]。當說話者在視頻中出現時,與觀眾之間的社會聯系更有可能形成,通過情感傳染[10]或由于對說話者的依戀而增強聲音線索的效果[11]。然而,關于這些聲音和視覺線索在用戶生成視頻中的影響的研究仍然有限。
以往關于用戶生成視頻中觀眾參與度影響因素的研究主要考察了視頻創作者和用戶的個人屬性[12]、[13]、內容質量和類型[14]以及交互屬性[14]、[15]。雖然一些研究考慮了聲音信號(如音高、音量變化和語速[1]、[16]以及視覺信號(如鏡頭和圖像復雜性[16]),但它們忽略了關鍵聲音線索的周期性變化及其潛在的非線性效應。有趣的是,在現實生活中經常觀察到聲音表現力的非線性模式。例如,在公開演講中,單調的演講方式往往會令聽眾感到無聊和疏離,而過于夸張的語調可能會讓聽眾覺得不真實甚至令人精神疲憊。此外,視覺線索可能與聲音線索相互作用以影響觀眾[17],但這種相互作用如何塑造參與度尚不清楚。因此,本研究通過研究說話者的聲音線索對用戶生成視頻中觀眾參與度的曲線效應以及視覺線索的協同影響來填補這些空白。
為了捕捉聲音線索,本研究考察了四個聲學特征,即聲音音高、音量、抖動和閃爍,這些特征可能通過情感感知顯著影響觀眾參與度[18],但在以往的文獻中卻被忽視了。聲音音高被定義為聲音的基本頻率[19],聲音音量被定義為單位面積內聲音傳遞的功率[8],它們捕捉了聲音表達的更穩定方面[20]。而抖動和閃爍分別指音高和音量的周期變化[21],反映了聲音的微妙擾動和動態變化[20]。作為重要的視覺線索,說話者的存在感被引入進來,以研究它如何與說話者的聲學特征相互作用,從而影響觀眾參與度。因此,我們提出以下研究問題:
研究問題1
說話者的聲學特征(即音高、音量、抖動和閃爍)如何影響用戶生成視頻中的觀眾參與度?
研究問題2
用戶生成視頻中的說話者存在感如何調節說話者的聲學特征與觀眾參與度之間的關系?
考慮到多模態非語言線索與用戶行為之間的復雜關系[1]、[18],我們借鑒情感傳染理論來解決這些研究問題。在觀看視頻時,說話者聲音和存在感中編碼的情感線索可能會引發情感傳染,從而影響觀眾參與度。我們使用來自Bilibili的數據提取了視頻中說話者的聲音和視覺特征,以研究在視覺線索調節作用下的聲音線索對參與度的曲線效應。然后,通過在線實驗進一步揭示了聲音線索通過情感喚醒對觀眾參與度的顯著影響。
本研究在理論和實踐上都有若干貢獻。首先,與以往主要關注個體、內容或交互屬性的研究不同,我們研究了說話者的聲音和視覺線索對用戶生成視頻中觀眾參與度的協同效應。它擴展了關于觀眾參與度的文獻,并響應了在實際中使用非結構化聲音數據的呼吁[22]。其次,我們通過研究基本聲學特征(如音高和音量)和聲音擾動(如抖動和閃爍)來推進聲音線索的相關研究。通過測量聲音的周期性變化并捕捉聲音線索與觀眾參與度之間的曲線關系,本研究加深了對聲學特征的理解,并有助于調和以往關于聲音線索效應的混合發現。第三,我們運用情感傳染理論來揭示聲音和視覺線索影響觀眾參與度的機制。研究結果證實了情感喚醒的調節作用,并通過展示過度使用聲音線索的負面效應豐富了情感傳染理論。最后,我們將情感交流框架擴展到包括策略性聲音線索管理,為視頻創作者和平臺管理者提供了優化觀眾參與度的實用指導。
部分摘錄
文獻綜述
觀眾參與度反映了個人與組織提供的內容的互動體驗,并已應用于各種情境中,以反映個人在社交互動中的參與程度[23]、[24]。以往的研究主要集中在認知驅動的參與度上,而最近的研究開始結合客觀的聲音信號[1]、[16]和視覺信號[16],顯示出多模態分析的趨勢。
音高和音量對情感喚醒的影響
情感喚醒是由媒體環境中的聽覺刺激觸發的重要情感反應,特別是在面對面或人機交互中。先前的研究表明,過高或過低的音高水平都會引起情感喚醒[57]。高音高(例如尖銳或緊張的語調)通常傳達興奮、緊張或緊迫感,從而引發更高的生理喚醒[27]。而低音高(例如低沉、平坦或壓抑的語調)則可能引發
數據采集
我們的數據來自全球最大的視頻分享平臺之一Bilibili[2]。在Bilibili上,視頻創作者可以創建并發布他們的視頻,所有細節都會顯示出來。說話者的存在感是可選的,由視頻創作者自行決定。作為觀眾參與的一種表現形式,觀眾在觀看視頻后可以通過在視頻下方的論壇部分發表評論來參與討論。
考慮到聲音和視覺線索的普遍采用
通過在線實驗進行后續分析
為了驗證這一機制,我們進行了在線實驗,以驗證說話者的聲音和視覺線索通過情感傳染對觀眾參與度的因果影響。
主要發現
在本研究中,我們研究了說話者的聲學特征和存在感如何通過情感喚醒影響用戶生成視頻中的觀眾參與度。我們發現,音高和音量與參與度呈現U形關系:從低到中等水平的增加會降低喚醒度和參與度,因為情感顯著性有限;而較高水平的增加則會提高喚醒度,因為言語更具情感表達力。相比之下,抖動和閃爍呈現倒U形關系,中等程度的擾動
CRediT作者貢獻聲明
趙攀:資源獲取、項目管理、資金籌集、數據整理、概念化。王玲:初稿撰寫、正式分析。李晨偉:撰寫——審稿與編輯、初稿撰寫、方法論、調查。盧耀斌:監督。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。
致謝
本工作得到了國家自然科學基金(項目編號:72171095、72401223)、國家社會科學基金(項目編號:22VRC153)、西安交通大學-利物浦大學(項目編號:RDH10120250040、RRSC10120260023)、廣東省哲學與社會科學基金會(項目編號:GD23XGL068)以及湖北省教育廳哲學與社會科學研究項目(項目編號:25Q091)的資助。
趙攀是中國華中科技大學管理學院的信息系統副教授。他的研究興趣包括智能服務、社交商務和社會計算。他的研究成果發表在《管理信息系統雜志》、《信息與管理雜志》、《國際電子商務雜志》、《商業研究雜志》、《信息技術與人雜志》、《國際信息管理雜志》、《計算機》等期刊上。