<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        一種結(jié)合多視圖技術(shù)和神經(jīng)符號(hào)學(xué)的阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè)方法:邁向更安全的在線環(huán)境

        《Expert Systems with Applications》:A Hybrid Multi-View and Neuro-Symbolic Approach for Arabic Offensive Language Detection: A Step Towards Safer Online Spaces

        【字體: 時(shí)間:2026年02月28日 來(lái)源:Expert Systems with Applications 7.5

        編輯推薦:

          檢測(cè)阿拉伯語(yǔ)社交媒體中的冒犯性內(nèi)容面臨方言多樣性、復(fù)雜形態(tài)和文化 nuances 的挑戰(zhàn)。本文提出神經(jīng)符號(hào)混合框架 MultiView+FuzzyRules,通過(guò)結(jié)合語(yǔ)境化Transformer嵌入與靜態(tài)詞嵌入的多視角表示,以及基于模糊邏輯的可解釋規(guī)則層,有效提升跨方言場(chǎng)景下的檢測(cè)性能與可解釋性。實(shí)驗(yàn)表明該方法在Tunisian、Egyptian、Lebanese方言及Algerian和YouTube數(shù)據(jù)集上均表現(xiàn)優(yōu)異,Macro-F1達(dá)0.63-0.85,且首次將神經(jīng)符號(hào)方法應(yīng)用于阿拉伯語(yǔ)冒犯檢測(cè)。

          
        Rim Mahouachi
        LR - IDEA(人工智能、數(shù)據(jù)工程與應(yīng)用,迦太基大學(xué)貝濟(jì)爾特分校理學(xué)院,Zarzouna,7021,突尼斯)

        摘要

        由于阿拉伯語(yǔ)的方言多樣性、復(fù)雜的形態(tài)學(xué)特征以及文化上微妙的表達(dá)方式,檢測(cè)阿拉伯語(yǔ)社交媒體中的攻擊性內(nèi)容仍然具有挑戰(zhàn)性。這些特性限制了純數(shù)據(jù)驅(qū)動(dòng)模型的泛化能力,并降低了可解釋性,使得做出透明且基于文化的審核決策變得困難。本文提出了MultiView+FuzzyRules,這是一個(gè)混合神經(jīng)符號(hào)框架,它整合了多種語(yǔ)義表示方法——結(jié)合了上下文化的Transformer嵌入和靜態(tài)詞嵌入——以及一個(gè)基于可微分模糊邏輯的特征層。模糊組件引入了可解釋的基于規(guī)則的約束,能夠捕捉到攻擊性、仇恨言論和粗俗語(yǔ)言的語(yǔ)言指標(biāo),從而提高了語(yǔ)義的精確度和透明度。該方法在包含多種阿拉伯方言的語(yǔ)料庫(kù)(突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ))上進(jìn)行了評(píng)估,評(píng)估了二元(攻擊性 vs. 非攻擊性)和多類(侮辱性、仇恨性、正常內(nèi)容)場(chǎng)景下的性能。在兩個(gè)外部數(shù)據(jù)集(阿爾及利亞方言侮辱性評(píng)論和阿拉伯語(yǔ)YouTube評(píng)論)上的額外實(shí)驗(yàn)顯示,該方法的跨領(lǐng)域(Macro-F1:0.63–0.76)和領(lǐng)域內(nèi)(Macro-F1:0.74–0.85)性能均具有競(jìng)爭(zhēng)力,表明該方法能夠很好地泛化到未見(jiàn)過(guò)的領(lǐng)域和方言。據(jù)我們所知,這是首次將多視圖深度表示與基于模糊邏輯的特征層結(jié)合用于阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè)的研究。通過(guò)整合豐富的語(yǔ)義表示和可解釋的符號(hào)特征,該框架支持在多語(yǔ)言和方言多樣的阿拉伯語(yǔ)社交媒體環(huán)境中做出更易于解釋的審核決策。

        引言

        在在線平臺(tái)上自動(dòng)檢測(cè)攻擊性言論已成為維護(hù)健康、尊重他人的數(shù)字環(huán)境的關(guān)鍵挑戰(zhàn)(Davidson, Warmsley, Macy, & Weber (2017); Founta et al. (2018); Khairy, Mahmoud, & Abd-El-Hafeez (2021))。不幸的是,用戶生成內(nèi)容的激增導(dǎo)致了有害內(nèi)容的相應(yīng)增加,包括仇恨言論(Albadi, Kurdi, & Mishra (2018); Davidson et al. (2017))、網(wǎng)絡(luò)欺凌(Albayari, Abdallah, & Shaalan (2025))和粗俗語(yǔ)言(Malmasi & Zampieri (2018))。這樣的環(huán)境不僅會(huì)降低用戶體驗(yàn),還可能造成現(xiàn)實(shí)世界的傷害,這凸顯了有效自動(dòng)化審核工具的社會(huì)和技術(shù)必要性。
        檢測(cè)攻擊性語(yǔ)言本質(zhì)上具有挑戰(zhàn)性,因?yàn)槠渲饔^性、語(yǔ)言多樣性、文化依賴性以及微妙的語(yǔ)義差異。在具有廣泛方言變化的語(yǔ)言中,這些挑戰(zhàn)更加明顯,例如阿拉伯語(yǔ)(Abdul-Mageed, Alhuzali, & Elaraby (2018); Alakrot, Murray, & Nikolov (2018); Mahouachi & Mahersia (2025)),這對(duì)自然語(yǔ)言處理(NLP)系統(tǒng)提出了獨(dú)特的挑戰(zhàn)。現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)(MSA)與許多地區(qū)方言(如埃及語(yǔ)、突尼斯語(yǔ)和黎凡特語(yǔ))之間存在顯著差異,這些方言通常是非正式的且缺乏標(biāo)準(zhǔn)化,當(dāng)在標(biāo)準(zhǔn)文本上訓(xùn)練的模型應(yīng)用于方言社交媒體數(shù)據(jù)時(shí),性能會(huì)明顯下降。關(guān)于阿拉伯語(yǔ)社交媒體的綜合性研究(Abdelsamie, Azab, & Hefny (2024); Abo, Raj, & Qazi (2019); Alshahrani, Aksoy, & Emam (2025)強(qiáng)調(diào)了關(guān)鍵挑戰(zhàn),包括注釋數(shù)據(jù)有限、方言變化大以及數(shù)據(jù)集之間的標(biāo)記實(shí)踐不一致。
        目前阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè)的先進(jìn)技術(shù)(Abdelsamie et al. (2024); Alshahrani et al. (2025))主要由深度學(xué)習(xí)模型主導(dǎo),如BERT及其變體。盡管這些模型在實(shí)證表現(xiàn)上很強(qiáng),但大多數(shù)現(xiàn)有方法采用單一模式、僅基于文本的設(shè)計(jì),依賴于靜態(tài)或上下文化的文本嵌入(Charfi, Besghaier, Akasheh, Atalla, & Zaghouani (2024); Faris, Aljarah, Habib, & Castillo (2020))。雖然這些數(shù)據(jù)驅(qū)動(dòng)的方法可以捕捉隱含的語(yǔ)義模式,但它們面臨兩個(gè)主要限制。首先,它們的性能嚴(yán)重依賴于大型且標(biāo)注準(zhǔn)確的數(shù)據(jù)集,而這些數(shù)據(jù)集往往無(wú)法為資源匱乏的阿拉伯方言或特定領(lǐng)域提供。其次,它們的黑箱性質(zhì)使得難以解釋,從而無(wú)法進(jìn)行有效的錯(cuò)誤分析或納入人類注釋者使用的顯式語(yǔ)言知識(shí)。因此,這些模型往往無(wú)法捕捉阿拉伯語(yǔ)的豐富上下文和方言變化,從而限制了它們的魯棒性和泛化能力。此外,依賴單一嵌入類型只能提供文本的狹隘視圖,導(dǎo)致模型關(guān)注表面詞匯模式而非實(shí)際含義。
        為了解決這些限制,提出了混合架構(gòu)MultiView+FuzzyRules。這項(xiàng)工作的根本動(dòng)機(jī)是彌合隱式、數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)義理解與顯式、可解釋的符號(hào)特征之間的差距。這是通過(guò)利用(1)多視圖文本表示(從多樣化的上下文和靜態(tài)嵌入模型中提取)和(2)基于模糊規(guī)則的特征層的互補(bǔ)優(yōu)勢(shì)來(lái)實(shí)現(xiàn)的。該層應(yīng)用領(lǐng)域驅(qū)動(dòng)的語(yǔ)言規(guī)則(例如,攻擊性、粗俗語(yǔ)言、風(fēng)格標(biāo)記或特定的攻擊性詞匯),使用可學(xué)習(xí)的模糊運(yùn)算符(包括合取、析取和否定)來(lái)影響模型的預(yù)測(cè)。通過(guò)將這些模糊規(guī)則與深度表示相結(jié)合,該架構(gòu)將隱式語(yǔ)義理解與基于模糊邏輯的特征結(jié)合起來(lái),為攻擊性言論檢測(cè)提供了一個(gè)平衡的框架。與純數(shù)據(jù)驅(qū)動(dòng)的方法相比,這種方法有助于模型處理方言變異性并提高可解釋性。
        該方法在覆蓋突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ)的多方言阿拉伯語(yǔ)語(yǔ)料庫(kù)上進(jìn)行了評(píng)估(Badri, Kboubi, & Chaibi (2022)。為了進(jìn)一步評(píng)估模型的魯棒性和泛化能力,還考慮了兩個(gè)額外的數(shù)據(jù)集:阿爾及利亞方言侮辱性評(píng)論(Mazari & Kheddar (2023)和阿拉伯語(yǔ)YouTube評(píng)論(Alakrot et al. (2018)。在跨領(lǐng)域(在Tun-EL上訓(xùn)練)和領(lǐng)域內(nèi)設(shè)置中都進(jìn)行了評(píng)估,以測(cè)試所提出的MultiView+FuzzyRules框架在不同阿拉伯方言和社交媒體環(huán)境中的適應(yīng)性。這些評(píng)估證明了模型對(duì)跨方言變異性、不平衡類別和復(fù)雜語(yǔ)言模式的魯棒性,支持可解釋的攻擊性語(yǔ)言檢測(cè)。
        為了評(píng)估所提出的混合方法的有效性,研究了以下研究問(wèn)題:
      3. RQ1:將模糊規(guī)則集成到MultiView模型中對(duì)二元攻擊性語(yǔ)言檢測(cè)的影響與基線方法相比如何?
      4. RQ2:將模糊規(guī)則集成到MultiView模型中對(duì)多類攻擊性語(yǔ)言檢測(cè)的影響與基線方法相比如何?
      5. RQ3:MultiView+FuzzyRules混合模型在領(lǐng)域內(nèi)和跨領(lǐng)域評(píng)估設(shè)置中與文獻(xiàn)中報(bào)道的最先進(jìn)模型相比在多類攻擊性語(yǔ)言檢測(cè)方面的表現(xiàn)如何?
      6. 本文的主要貢獻(xiàn)包括:
        • 引入了MultiView+FuzzyRules
          ,這是一個(gè)新穎的混合神經(jīng)符號(hào)框架,它結(jié)合了來(lái)自不同阿拉伯方言的多視圖嵌入和基于模糊規(guī)則的特征層,實(shí)現(xiàn)了準(zhǔn)確且可解釋的攻擊性語(yǔ)言檢測(cè)。據(jù)我們所知,這是首次將混合神經(jīng)符號(hào)方法應(yīng)用于阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè),為語(yǔ)言復(fù)雜的語(yǔ)言領(lǐng)域的NLP研究做出了新的貢獻(xiàn)。
        • 設(shè)計(jì)和整合了領(lǐng)域驅(qū)動(dòng)的模糊邏輯規(guī)則,以捕捉攻擊性強(qiáng)度和粗俗語(yǔ)言等語(yǔ)言特征,提供可解釋的指導(dǎo)并確保語(yǔ)義一致性。
        • 在涵蓋突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ)的多方言阿拉伯語(yǔ)語(yǔ)料庫(kù)上進(jìn)行了廣泛的實(shí)驗(yàn),與強(qiáng)大的基線進(jìn)行了比較分析,包括二元和多類分類設(shè)置。
        • 在兩個(gè)額外數(shù)據(jù)集(阿爾及利亞方言侮辱性評(píng)論和阿拉伯語(yǔ)YouTube評(píng)論)上進(jìn)行了評(píng)估,涵蓋了跨領(lǐng)域和領(lǐng)域內(nèi)設(shè)置,分析了模型對(duì)未見(jiàn)過(guò)的方言和社交媒體環(huán)境的魯棒性和泛化能力。
        • 詳細(xì)分析了模型在攻擊性內(nèi)容上的表現(xiàn)、跨方言的改進(jìn)以及在文化意識(shí)強(qiáng)的審核決策中的可解釋性。
        本文的結(jié)構(gòu)如下:第2節(jié)回顧了NLP中關(guān)于攻擊性言論檢測(cè)和神經(jīng)符號(hào)方法的相關(guān)工作。第3節(jié)介紹了MultiView+FuzzyRules架構(gòu),詳細(xì)介紹了多視圖嵌入提取、基于模糊規(guī)則的特征層和訓(xùn)練過(guò)程。第4節(jié)描述了數(shù)據(jù)集、評(píng)估指標(biāo)和實(shí)驗(yàn)設(shè)置。第5節(jié)報(bào)告并討論了實(shí)驗(yàn)結(jié)果,包括二元和多類分類分析、跨領(lǐng)域和領(lǐng)域內(nèi)評(píng)估,以及與最先進(jìn)基線的比較。第6節(jié)指出了當(dāng)前方法的局限性,并概述了未來(lái)工作的方向。最后,第7節(jié)總結(jié)了本文。

        相關(guān)研究

        相關(guān)工作

        本節(jié)回顧了仇恨言論檢測(cè)的研究,重點(diǎn)關(guān)注阿拉伯語(yǔ)特有的挑戰(zhàn)以及啟發(fā)我們混合方法的神經(jīng)符號(hào)方法,以促進(jìn)更安全的在線空間。

        提出的方法

        本節(jié)介紹了MultiView+FuzzyRules框架,旨在穩(wěn)健地檢測(cè)不適當(dāng)或攻擊性的阿拉伯語(yǔ)內(nèi)容。該架構(gòu)結(jié)合了多視圖神經(jīng)表示和可解釋的基于模糊規(guī)則的特征層,編碼了從攻擊性得分、粗俗語(yǔ)言符號(hào)和基于詞匯的比率中得出的語(yǔ)言驅(qū)動(dòng)的約束。該方法適用于二元分類(攻擊性 vs. 非攻擊性)和多類分類(例如

        研究設(shè)置

        本節(jié)介紹了數(shù)據(jù)集、評(píng)估指標(biāo)和實(shí)驗(yàn)設(shè)置的詳細(xì)信息。

        結(jié)果與討論

        本節(jié)展示了所提出的MultiView+FuzzyRules框架相對(duì)于研究問(wèn)題的評(píng)估結(jié)果。

        局限性與未來(lái)工作

        盡管所提出的MultiView+FuzzyRules框架表現(xiàn)出有希望的性能和可解釋性,但它也存在某些局限性,這為未來(lái)的工作指明了方向。
        公平性與偏見(jiàn)緩解 方言分析揭示了任務(wù)依賴的效應(yīng)。在二元分類中,埃及語(yǔ)的改進(jìn)(+7.9% F1)遠(yuǎn)超過(guò)黎巴嫩語(yǔ)(+1.0%)和突尼斯語(yǔ)(+1.3%),加劇了方言間的差異。在多類分類中,表現(xiàn)較差的方言的改進(jìn)幅度略大于埃及語(yǔ)。

        結(jié)論

        本研究提出了MultiView+FuzzyRules,這是一種用于阿拉伯語(yǔ)社交媒體中攻擊性語(yǔ)言檢測(cè)的混合神經(jīng)符號(hào)架構(gòu)。通過(guò)結(jié)合多種嵌入視圖和基于模糊邏輯的特征層,該方法捕捉了語(yǔ)義的豐富性和可解釋的符號(hào)線索,以應(yīng)對(duì)阿拉伯語(yǔ)的形態(tài)學(xué)復(fù)雜性和方言多樣性。
        該模型在涵蓋突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ)的多方言語(yǔ)料庫(kù)上進(jìn)行了評(píng)估,包括二元

        作者聲明

        Rim Mahouachi構(gòu)思并設(shè)計(jì)了這項(xiàng)研究,實(shí)現(xiàn)了模型,進(jìn)行了實(shí)驗(yàn),分析了結(jié)果,并撰寫了手稿。作者已閱讀并批準(zhǔn)了手稿的最終版本。

        利益沖突聲明

        作者聲明他們沒(méi)有已知的競(jìng)爭(zhēng)性財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文報(bào)告的工作。
        相關(guān)新聞
        生物通微信公眾號(hào)
        微信
        新浪微博
        • 搜索
        • 國(guó)際
        • 國(guó)內(nèi)
        • 人物
        • 產(chǎn)業(yè)
        • 熱點(diǎn)
        • 科普

        知名企業(yè)招聘

        熱點(diǎn)排行

          今日動(dòng)態(tài) | 人才市場(chǎng) | 新技術(shù)專欄 | 中國(guó)科學(xué)人 | 云展臺(tái) | BioHot | 云講堂直播 | 會(huì)展中心 | 特價(jià)專欄 | 技術(shù)快訊 | 免費(fèi)試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號(hào)