蜜桃av在线,韩国无码一区,日韩3p在线

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

基于事件的唇讀技術及三平面融合網絡（Event-based Lip Reading with Triplane Fusion Network）

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Event-based Lip Reading with Triplane Fusion Network

【字體：大中小】 時間：2026年02月27日 來源：ACM Transactions on Multimedia Computing, Communications, and Applications

編輯推薦：

　　事件相機唇語識別通過三視角融合提升性能。提出TF-Net框架，利用XYT、XT、YT三種互補視角，結合專家模塊與跨視角互信息交換機制，有效捕捉唇部運動特征，在DVS-Lip和Modality數據集上分別提升1.6%和2.3%準確率。

要查看此由AI生成的摘要，您必須具有高級訪問權限。

了解更多登錄

摘要

通過事件相機進行唇部識別可以捕捉到細微且相似的唇部動作，具有較大的動態范圍和微秒級的延遲，從而比傳統的基于幀的相機提供更高的時間分辨率。然而，現有的方法往往忽略了利用獨特的唇部動作模式，而是選擇適應現有的視頻識別架構。在本文中，我們提出了一個名為Triplane Fusion Network (TF-Net) 的事件指定框架，通過從三個不同但互補的視角來分析唇部動作。具體來說，在遵循標準的XYT視角的同時，我們進一步加入了兩個額外的視角：XT和YT，旨在利用事件隨時間的獨特流動特性。由于這三個視角的存在，TF-Net為每個視角都包含了多個專家模塊以及用于促進不同視角之間多方向運動信息交換的互信息交換模塊。我們觀察到這三個視角相互補充，進一步增強了事件指定分布的學習效果。廣泛的實驗驗證了所提出方法的有效性，在真實世界數據集DVS-Lip和合成數據集Modality上，其準確率分別超過了其他競爭方法的1.6%和2.3%。

AI摘要

AI生成的摘要（實驗性）

該摘要是使用自動化工具生成的，并非由文章作者撰寫或審核。它旨在幫助發現、評估相關性，并幫助來自相關研究領域的讀者理解本文的工作。它旨在補充作者提供的摘要，后者仍是文章的官方摘要。完整文章才是權威版本。點擊此處了解更多。

點擊此處對摘要的準確性、清晰度和實用性進行評論。您的反饋將有助于改進和未來版本的優化。

要查看此由AI生成的通俗語言摘要，您必須具有高級訪問權限。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號