亚洲欧洲制服,国产欧美一区二区精品性色超碰,久久99免费麻辣视频

首頁(yè) 今日動(dòng)態(tài) 人才市場(chǎng) 新技術(shù)專欄中國(guó)科學(xué)人云展臺(tái)
BioHot
云講堂直播會(huì)展中心特價(jià)專欄技術(shù)快訊免費(fèi)試用

生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏

生物通首頁(yè) > 今日動(dòng)態(tài) > 正文

一種結(jié)合多視圖技術(shù)和神經(jīng)符號(hào)學(xué)的阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè)方法：邁向更安全的在線環(huán)境

《Expert Systems with Applications》：A Hybrid Multi-View and Neuro-Symbolic Approach for Arabic Offensive Language Detection: A Step Towards Safer Online Spaces

【字體：大中小】 時(shí)間：2026年02月28日 來(lái)源：Expert Systems with Applications 7.5

編輯推薦：

　　檢測(cè)阿拉伯語(yǔ)社交媒體中的冒犯性內(nèi)容面臨方言多樣性、復(fù)雜形態(tài)和文化 nuances 的挑戰(zhàn)。本文提出神經(jīng)符號(hào)混合框架 MultiView+FuzzyRules，通過(guò)結(jié)合語(yǔ)境化Transformer嵌入與靜態(tài)詞嵌入的多視角表示，以及基于模糊邏輯的可解釋規(guī)則層，有效提升跨方言場(chǎng)景下的檢測(cè)性能與可解釋性。實(shí)驗(yàn)表明該方法在Tunisian、Egyptian、Lebanese方言及Algerian和YouTube數(shù)據(jù)集上均表現(xiàn)優(yōu)異，Macro-F1達(dá)0.63-0.85，且首次將神經(jīng)符號(hào)方法應(yīng)用于阿拉伯語(yǔ)冒犯檢測(cè)。

Rim Mahouachi

LR - IDEA（人工智能、數(shù)據(jù)工程與應(yīng)用，迦太基大學(xué)貝濟(jì)爾特分校理學(xué)院，Zarzouna，7021，突尼斯）

摘要

由于阿拉伯語(yǔ)的方言多樣性、復(fù)雜的形態(tài)學(xué)特征以及文化上微妙的表達(dá)方式，檢測(cè)阿拉伯語(yǔ)社交媒體中的攻擊性內(nèi)容仍然具有挑戰(zhàn)性。這些特性限制了純數(shù)據(jù)驅(qū)動(dòng)模型的泛化能力，并降低了可解釋性，使得做出透明且基于文化的審核決策變得困難。本文提出了MultiView+FuzzyRules，這是一個(gè)混合神經(jīng)符號(hào)框架，它整合了多種語(yǔ)義表示方法——結(jié)合了上下文化的Transformer嵌入和靜態(tài)詞嵌入——以及一個(gè)基于可微分模糊邏輯的特征層。模糊組件引入了可解釋的基于規(guī)則的約束，能夠捕捉到攻擊性、仇恨言論和粗俗語(yǔ)言的語(yǔ)言指標(biāo)，從而提高了語(yǔ)義的精確度和透明度。該方法在包含多種阿拉伯方言的語(yǔ)料庫(kù)（突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ)）上進(jìn)行了評(píng)估，評(píng)估了二元（攻擊性 vs. 非攻擊性）和多類（侮辱性、仇恨性、正常內(nèi)容）場(chǎng)景下的性能。在兩個(gè)外部數(shù)據(jù)集（阿爾及利亞方言侮辱性評(píng)論和阿拉伯語(yǔ)YouTube評(píng)論）上的額外實(shí)驗(yàn)顯示，該方法的跨領(lǐng)域（Macro-F1：0.63–0.76）和領(lǐng)域內(nèi)（Macro-F1：0.74–0.85）性能均具有競(jìng)爭(zhēng)力，表明該方法能夠很好地泛化到未見(jiàn)過(guò)的領(lǐng)域和方言。據(jù)我們所知，這是首次將多視圖深度表示與基于模糊邏輯的特征層結(jié)合用于阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè)的研究。通過(guò)整合豐富的語(yǔ)義表示和可解釋的符號(hào)特征，該框架支持在多語(yǔ)言和方言多樣的阿拉伯語(yǔ)社交媒體環(huán)境中做出更易于解釋的審核決策。

引言

在在線平臺(tái)上自動(dòng)檢測(cè)攻擊性言論已成為維護(hù)健康、尊重他人的數(shù)字環(huán)境的關(guān)鍵挑戰(zhàn)（Davidson, Warmsley, Macy, & Weber (2017); Founta et al. (2018); Khairy, Mahmoud, & Abd-El-Hafeez (2021)）。不幸的是，用戶生成內(nèi)容的激增導(dǎo)致了有害內(nèi)容的相應(yīng)增加，包括仇恨言論（Albadi, Kurdi, & Mishra (2018); Davidson et al. (2017)）、網(wǎng)絡(luò)欺凌（Albayari, Abdallah, & Shaalan (2025)）和粗俗語(yǔ)言（Malmasi & Zampieri (2018））。這樣的環(huán)境不僅會(huì)降低用戶體驗(yàn)，還可能造成現(xiàn)實(shí)世界的傷害，這凸顯了有效自動(dòng)化審核工具的社會(huì)和技術(shù)必要性。

檢測(cè)攻擊性語(yǔ)言本質(zhì)上具有挑戰(zhàn)性，因?yàn)槠渲饔^性、語(yǔ)言多樣性、文化依賴性以及微妙的語(yǔ)義差異。在具有廣泛方言變化的語(yǔ)言中，這些挑戰(zhàn)更加明顯，例如阿拉伯語(yǔ)（Abdul-Mageed, Alhuzali, & Elaraby (2018); Alakrot, Murray, & Nikolov (2018); Mahouachi & Mahersia (2025)），這對(duì)自然語(yǔ)言處理（NLP）系統(tǒng)提出了獨(dú)特的挑戰(zhàn)。現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)（MSA）與許多地區(qū)方言（如埃及語(yǔ)、突尼斯語(yǔ)和黎凡特語(yǔ)）之間存在顯著差異，這些方言通常是非正式的且缺乏標(biāo)準(zhǔn)化，當(dāng)在標(biāo)準(zhǔn)文本上訓(xùn)練的模型應(yīng)用于方言社交媒體數(shù)據(jù)時(shí)，性能會(huì)明顯下降。關(guān)于阿拉伯語(yǔ)社交媒體的綜合性研究（Abdelsamie, Azab, & Hefny (2024); Abo, Raj, & Qazi (2019); Alshahrani, Aksoy, & Emam (2025）強(qiáng)調(diào)了關(guān)鍵挑戰(zhàn)，包括注釋數(shù)據(jù)有限、方言變化大以及數(shù)據(jù)集之間的標(biāo)記實(shí)踐不一致。

目前阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè)的先進(jìn)技術(shù)（Abdelsamie et al. (2024); Alshahrani et al. (2025)）主要由深度學(xué)習(xí)模型主導(dǎo)，如BERT及其變體。盡管這些模型在實(shí)證表現(xiàn)上很強(qiáng)，但大多數(shù)現(xiàn)有方法采用單一模式、僅基于文本的設(shè)計(jì)，依賴于靜態(tài)或上下文化的文本嵌入（Charfi, Besghaier, Akasheh, Atalla, & Zaghouani (2024); Faris, Aljarah, Habib, & Castillo (2020)）。雖然這些數(shù)據(jù)驅(qū)動(dòng)的方法可以捕捉隱含的語(yǔ)義模式，但它們面臨兩個(gè)主要限制。首先，它們的性能嚴(yán)重依賴于大型且標(biāo)注準(zhǔn)確的數(shù)據(jù)集，而這些數(shù)據(jù)集往往無(wú)法為資源匱乏的阿拉伯方言或特定領(lǐng)域提供。其次，它們的黑箱性質(zhì)使得難以解釋，從而無(wú)法進(jìn)行有效的錯(cuò)誤分析或納入人類注釋者使用的顯式語(yǔ)言知識(shí)。因此，這些模型往往無(wú)法捕捉阿拉伯語(yǔ)的豐富上下文和方言變化，從而限制了它們的魯棒性和泛化能力。此外，依賴單一嵌入類型只能提供文本的狹隘視圖，導(dǎo)致模型關(guān)注表面詞匯模式而非實(shí)際含義。

為了解決這些限制，提出了混合架構(gòu)MultiView+FuzzyRules。這項(xiàng)工作的根本動(dòng)機(jī)是彌合隱式、數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)義理解與顯式、可解釋的符號(hào)特征之間的差距。這是通過(guò)利用（1）多視圖文本表示（從多樣化的上下文和靜態(tài)嵌入模型中提取）和（2）基于模糊規(guī)則的特征層的互補(bǔ)優(yōu)勢(shì)來(lái)實(shí)現(xiàn)的。該層應(yīng)用領(lǐng)域驅(qū)動(dòng)的語(yǔ)言規(guī)則（例如，攻擊性、粗俗語(yǔ)言、風(fēng)格標(biāo)記或特定的攻擊性詞匯），使用可學(xué)習(xí)的模糊運(yùn)算符（包括合取、析取和否定）來(lái)影響模型的預(yù)測(cè)。通過(guò)將這些模糊規(guī)則與深度表示相結(jié)合，該架構(gòu)將隱式語(yǔ)義理解與基于模糊邏輯的特征結(jié)合起來(lái)，為攻擊性言論檢測(cè)提供了一個(gè)平衡的框架。與純數(shù)據(jù)驅(qū)動(dòng)的方法相比，這種方法有助于模型處理方言變異性并提高可解釋性。

該方法在覆蓋突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ)的多方言阿拉伯語(yǔ)語(yǔ)料庫(kù)上進(jìn)行了評(píng)估（Badri, Kboubi, & Chaibi (2022)。為了進(jìn)一步評(píng)估模型的魯棒性和泛化能力，還考慮了兩個(gè)額外的數(shù)據(jù)集：阿爾及利亞方言侮辱性評(píng)論（Mazari & Kheddar (2023）和阿拉伯語(yǔ)YouTube評(píng)論（Alakrot et al. (2018）。在跨領(lǐng)域（在Tun-EL上訓(xùn)練）和領(lǐng)域內(nèi)設(shè)置中都進(jìn)行了評(píng)估，以測(cè)試所提出的MultiView+FuzzyRules框架在不同阿拉伯方言和社交媒體環(huán)境中的適應(yīng)性。這些評(píng)估證明了模型對(duì)跨方言變異性、不平衡類別和復(fù)雜語(yǔ)言模式的魯棒性，支持可解釋的攻擊性語(yǔ)言檢測(cè)。

為了評(píng)估所提出的混合方法的有效性，研究了以下研究問(wèn)題：

•

RQ1：將模糊規(guī)則集成到MultiView模型中對(duì)二元攻擊性語(yǔ)言檢測(cè)的影響與基線方法相比如何？

•

RQ2：將模糊規(guī)則集成到MultiView模型中對(duì)多類攻擊性語(yǔ)言檢測(cè)的影響與基線方法相比如何？

•

RQ3：MultiView+FuzzyRules混合模型在領(lǐng)域內(nèi)和跨領(lǐng)域評(píng)估設(shè)置中與文獻(xiàn)中報(bào)道的最先進(jìn)模型相比在多類攻擊性語(yǔ)言檢測(cè)方面的表現(xiàn)如何？

本文的主要貢獻(xiàn)包括：

•
引入了MultiView+FuzzyRules
，這是一個(gè)新穎的混合神經(jīng)符號(hào)框架，它結(jié)合了來(lái)自不同阿拉伯方言的多視圖嵌入和基于模糊規(guī)則的特征層，實(shí)現(xiàn)了準(zhǔn)確且可解釋的攻擊性語(yǔ)言檢測(cè)。據(jù)我們所知，這是首次將混合神經(jīng)符號(hào)方法應(yīng)用于阿拉伯語(yǔ)攻擊性語(yǔ)言檢測(cè)，為語(yǔ)言復(fù)雜的語(yǔ)言領(lǐng)域的NLP研究做出了新的貢獻(xiàn)。
•
設(shè)計(jì)和整合了領(lǐng)域驅(qū)動(dòng)的模糊邏輯規(guī)則，以捕捉攻擊性強(qiáng)度和粗俗語(yǔ)言等語(yǔ)言特征，提供可解釋的指導(dǎo)并確保語(yǔ)義一致性。
•
在涵蓋突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ)的多方言阿拉伯語(yǔ)語(yǔ)料庫(kù)上進(jìn)行了廣泛的實(shí)驗(yàn)，與強(qiáng)大的基線進(jìn)行了比較分析，包括二元和多類分類設(shè)置。
•
在兩個(gè)額外數(shù)據(jù)集（阿爾及利亞方言侮辱性評(píng)論和阿拉伯語(yǔ)YouTube評(píng)論）上進(jìn)行了評(píng)估，涵蓋了跨領(lǐng)域和領(lǐng)域內(nèi)設(shè)置，分析了模型對(duì)未見(jiàn)過(guò)的方言和社交媒體環(huán)境的魯棒性和泛化能力。
•
詳細(xì)分析了模型在攻擊性內(nèi)容上的表現(xiàn)、跨方言的改進(jìn)以及在文化意識(shí)強(qiáng)的審核決策中的可解釋性。

本文的結(jié)構(gòu)如下：第2節(jié)回顧了NLP中關(guān)于攻擊性言論檢測(cè)和神經(jīng)符號(hào)方法的相關(guān)工作。第3節(jié)介紹了MultiView+FuzzyRules架構(gòu)，詳細(xì)介紹了多視圖嵌入提取、基于模糊規(guī)則的特征層和訓(xùn)練過(guò)程。第4節(jié)描述了數(shù)據(jù)集、評(píng)估指標(biāo)和實(shí)驗(yàn)設(shè)置。第5節(jié)報(bào)告并討論了實(shí)驗(yàn)結(jié)果，包括二元和多類分類分析、跨領(lǐng)域和領(lǐng)域內(nèi)評(píng)估，以及與最先進(jìn)基線的比較。第6節(jié)指出了當(dāng)前方法的局限性，并概述了未來(lái)工作的方向。最后，第7節(jié)總結(jié)了本文。

提出的方法

本節(jié)介紹了MultiView+FuzzyRules框架，旨在穩(wěn)健地檢測(cè)不適當(dāng)或攻擊性的阿拉伯語(yǔ)內(nèi)容。該架構(gòu)結(jié)合了多視圖神經(jīng)表示和可解釋的基于模糊規(guī)則的特征層，編碼了從攻擊性得分、粗俗語(yǔ)言符號(hào)和基于詞匯的比率中得出的語(yǔ)言驅(qū)動(dòng)的約束。該方法適用于二元分類（攻擊性 vs. 非攻擊性）和多類分類（例如

研究設(shè)置

本節(jié)介紹了數(shù)據(jù)集、評(píng)估指標(biāo)和實(shí)驗(yàn)設(shè)置的詳細(xì)信息。

結(jié)果與討論

本節(jié)展示了所提出的MultiView+FuzzyRules框架相對(duì)于研究問(wèn)題的評(píng)估結(jié)果。

局限性與未來(lái)工作

盡管所提出的MultiView+FuzzyRules框架表現(xiàn)出有希望的性能和可解釋性，但它也存在某些局限性，這為未來(lái)的工作指明了方向。

公平性與偏見(jiàn)緩解 方言分析揭示了任務(wù)依賴的效應(yīng)。在二元分類中，埃及語(yǔ)的改進(jìn)（+7.9% F1）遠(yuǎn)超過(guò)黎巴嫩語(yǔ)（+1.0%）和突尼斯語(yǔ)（+1.3%），加劇了方言間的差異。在多類分類中，表現(xiàn)較差的方言的改進(jìn)幅度略大于埃及語(yǔ)。

結(jié)論

本研究提出了MultiView+FuzzyRules，這是一種用于阿拉伯語(yǔ)社交媒體中攻擊性語(yǔ)言檢測(cè)的混合神經(jīng)符號(hào)架構(gòu)。通過(guò)結(jié)合多種嵌入視圖和基于模糊邏輯的特征層，該方法捕捉了語(yǔ)義的豐富性和可解釋的符號(hào)線索，以應(yīng)對(duì)阿拉伯語(yǔ)的形態(tài)學(xué)復(fù)雜性和方言多樣性。

該模型在涵蓋突尼斯語(yǔ)、埃及語(yǔ)和黎巴嫩語(yǔ)的多方言語(yǔ)料庫(kù)上進(jìn)行了評(píng)估，包括二元

作者聲明

Rim Mahouachi構(gòu)思并設(shè)計(jì)了這項(xiàng)研究，實(shí)現(xiàn)了模型，進(jìn)行了實(shí)驗(yàn)，分析了結(jié)果，并撰寫了手稿。作者已閱讀并批準(zhǔn)了手稿的最終版本。

利益沖突聲明

作者聲明他們沒(méi)有已知的競(jìng)爭(zhēng)性財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文報(bào)告的工作。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國(guó)際
國(guó)內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

熱搜：阿拉伯冒犯語(yǔ)言檢測(cè)|神經(jīng)符號(hào)框架|多方言適應(yīng)|模糊邏輯規(guī)則層|可解釋性提升

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題

版權(quán)所有生物通

聯(lián)系信箱：

粵ICP備09063491號(hào)

摘要

引言

相關(guān)研究

相關(guān)工作