<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        FinTextSim:面向財(cái)務(wù)披露文本的領(lǐng)域特定句子變換器,用于提取預(yù)測(cè)性潛在主題

        《Frontiers in Artificial Intelligence》:FinTextSim: a domain-specific sentence-transformer for extracting predictive latent topics from financial disclosures

        【字體: 時(shí)間:2026年03月02日 來(lái)源:Frontiers in Artificial Intelligence 4.7

        編輯推薦:

          這篇前沿綜述系統(tǒng)性地探討了如何利用自然語(yǔ)言處理(NLP)技術(shù),特別是主題模型,從公司年報(bào)(10-K文件)的文本部分(Item 7 和 Item 7A)中挖掘預(yù)測(cè)性信息。研究不僅對(duì)經(jīng)典與當(dāng)代主題模型進(jìn)行了基準(zhǔn)測(cè)試,還引入了FinTextSim——一個(gè)為金融文本微調(diào)的句子變換器。結(jié)果顯示,結(jié)合了FinTextSim的BERTopic模型在主題質(zhì)量和組織能力上均表現(xiàn)卓越,能夠生成更清晰、更連貫且與財(cái)務(wù)高度相關(guān)的主題簇。更重要的是,在預(yù)測(cè)公司未來(lái)業(yè)績(jī)(以ROA變化為指標(biāo))的下游任務(wù)中,F(xiàn)inTextSim提取的文本特征能夠顯著提升邏輯回歸(LR)和XGBoost等機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能,證明了文本信息的增量?jī)r(jià)值。該研究為金融文本分析、公司績(jī)效預(yù)測(cè)以及智能投資決策提供了強(qiáng)有力的方法和工具。

          
        引言與研究背景
        近年來(lái),信息可得性與計(jì)算能力的進(jìn)步正在改變對(duì)年報(bào)(包括10-K文件)的分析方式。傳統(tǒng)評(píng)估側(cè)重于回顧性的定量財(cái)務(wù)指標(biāo),而對(duì)文本數(shù)據(jù)的挖掘則相對(duì)不足。然而,越來(lái)越多的證據(jù)表明,年度報(bào)告中定性的文本部分同樣蘊(yùn)含著預(yù)測(cè)未來(lái)績(jī)效的能力。在這些文件中,Item 7(管理層討論與分析,MD&A)和Item 7A(市場(chǎng)風(fēng)險(xiǎn))是尤為關(guān)鍵的章節(jié),它們包含了管理層對(duì)公司運(yùn)營(yíng)、風(fēng)險(xiǎn)、機(jī)遇和戰(zhàn)略的敘述性觀點(diǎn),是理解公司未來(lái)發(fā)展方向和潛在挑戰(zhàn)的寶貴信息源。
        然而,手動(dòng)審查這些海量文本既耗時(shí)又容易受到主觀偏見(jiàn)的影響。信息量的激增也加劇了信息過(guò)載的風(fēng)險(xiǎn)。為了應(yīng)對(duì)這些挑戰(zhàn),自動(dòng)化的方法,如主題建模,變得至關(guān)重要。主題建模通過(guò)揭示文本語(yǔ)料庫(kù)中的潛在主題來(lái)總結(jié)大型文本集合,其無(wú)監(jiān)督的特性使其在缺乏大量標(biāo)注數(shù)據(jù)的現(xiàn)實(shí)場(chǎng)景中具有可擴(kuò)展性。
        傳統(tǒng)的主題建模方法,如潛在狄利克雷分配(LDA)和非負(fù)矩陣分解(NMF),依賴于詞袋(BoW)假設(shè),這限制了模型捕捉文本語(yǔ)義含義的能力。神經(jīng)主題建模方法通過(guò)使用上下文嵌入來(lái)解決這個(gè)問(wèn)題,能夠捕捉文本之間的語(yǔ)義和上下文關(guān)系。句子變換器進(jìn)一步提高了語(yǔ)義相似性比較的效率和效果。其中,BERTopic作為一種結(jié)合了上下文嵌入和聚類技術(shù)的現(xiàn)代主題建模方法,顯示出巨大的潛力。
        盡管主題建模和上下文嵌入在通用自然語(yǔ)言處理(NLP)中廣泛應(yīng)用,但它們?cè)诮鹑趹?yīng)用中的有效性,特別是在涉及專業(yè)術(shù)語(yǔ)和領(lǐng)域特定語(yǔ)境時(shí),仍知之甚少。通用模型(如all-MiniLM-L6-v2和all-mpnet-base-v2)并非針對(duì)金融語(yǔ)言的語(yǔ)義和上下文細(xì)微差別進(jìn)行優(yōu)化。而現(xiàn)有的針對(duì)金融領(lǐng)域的模型則主要優(yōu)化用于情感分析,其對(duì)于金融文本主題建模和語(yǔ)義聚類的適用性仍是一個(gè)開(kāi)放的實(shí)證問(wèn)題。
        研究目標(biāo)與方法
        為了填補(bǔ)上述空白,本研究開(kāi)發(fā)并評(píng)估了FinTextSim,一個(gè)專門為金融文本微調(diào)的句子變換器模型。FinTextSim旨在捕獲領(lǐng)域特定的語(yǔ)義結(jié)構(gòu),作為一個(gè)領(lǐng)域適應(yīng)的信息過(guò)濾器,將非結(jié)構(gòu)化的財(cái)務(wù)敘述提煉為結(jié)構(gòu)化、語(yǔ)義豐富的表征。
        研究基于2016年至2023年標(biāo)準(zhǔn)普爾(S&P)500公司10-K文件的Item 7和Item 7A部分,系統(tǒng)性地評(píng)估了多種主題建模算法,包括經(jīng)典的LDA、NMF,以及結(jié)合了不同嵌入模型(FinTextSim、all-MiniLM-L6-v2、all-mpnet-base-v2和一個(gè)金融情感分析模型distilroberta-finetuned-financial-news-sentiment-analysis)的當(dāng)代方法BERTopic。評(píng)估從兩個(gè)方面進(jìn)行:主題質(zhì)量(生成連貫、可解釋主題的能力)和組織能力(將文檔結(jié)構(gòu)化、分組成有意義的主題簇的能力)。評(píng)價(jià)指標(biāo)包括歸一化逐點(diǎn)互信息(NPMI)連貫性、人工評(píng)估的主題準(zhǔn)確率、主題內(nèi)相似性和主題間相似性。
        此外,為了評(píng)估從主題模型中提取的文本信息的預(yù)測(cè)價(jià)值,研究進(jìn)行了下游任務(wù)分析。將來(lái)自不同主題模型的主題-文檔分布,與一組基礎(chǔ)財(cái)務(wù)指標(biāo)相結(jié)合,輸入機(jī)器學(xué)習(xí)模型(邏輯回歸LR和XGBoost)中,用于預(yù)測(cè)公司未來(lái)的資產(chǎn)收益率(ROA)變化方向。通過(guò)比較純財(cái)務(wù)基線模型與加入文本特征后模型的預(yù)測(cè)性能(準(zhǔn)確率、F1分?jǐn)?shù)、ROC曲線下面積ROC-AUC),可以判斷哪種文本表征能為公司績(jī)效預(yù)測(cè)提供增量信息。
        核心發(fā)現(xiàn)與結(jié)果分析
        FinTextSim:提升金融領(lǐng)域上下文嵌入質(zhì)量
        研究結(jié)果顯示,F(xiàn)inTextSim在生成語(yǔ)義清晰的簇和減少異常值方面顯著優(yōu)于標(biāo)準(zhǔn)嵌入模型。在測(cè)試數(shù)據(jù)集上,F(xiàn)inTextSim實(shí)現(xiàn)了高達(dá)0.998的主題內(nèi)相似性,同時(shí)將主題間相似性降至-0.075。相比之下,通用模型和金融情感分析模型的主題間相似性較高(0.465至0.883),表明主題分離度較差。當(dāng)與BERTopic結(jié)合時(shí),F(xiàn)inTextSim產(chǎn)生的異常值數(shù)量(240,823)比基準(zhǔn)模型減少了69%以上。這表明FinTextSim能夠更好地捕捉金融領(lǐng)域特定的語(yǔ)義區(qū)別,形成 distinct 且有意義的主題簇。
        主題質(zhì)量:生成準(zhǔn)確、連貫的金融主題
        在主題準(zhǔn)確率(人工評(píng)估)方面,BERTopic結(jié)合FinTextSim以81%的正確率遠(yuǎn)超所有替代方案。而通用句子變換器(AM 6%, MPNET 23%)和金融情感分析模型(DR 9%)的準(zhǔn)確率則低得多。經(jīng)典主題模型表現(xiàn)更差,LDA甚至無(wú)法正確識(shí)別任何主題。這表明FinTextSim能夠可靠地恢復(fù)廣泛的經(jīng)濟(jì)學(xué)意義的金融主題。
        在NPMI連貫性方面,BERTopic模型普遍優(yōu)于經(jīng)典模型,但一個(gè)有趣的悖論出現(xiàn)了:盡管FinTextSim的主題準(zhǔn)確率最高,但其原始連貫性得分(0.287)卻低于一些誤分類率高的通用模型(如AM 0.387)。這揭示了在金融領(lǐng)域,僅依靠連貫性指標(biāo)評(píng)估主題模型是不充分的,因?yàn)檫B貫性不懲罰誤分類,且金融關(guān)鍵術(shù)語(yǔ)可能不常在一個(gè)滑動(dòng)窗口中共現(xiàn),導(dǎo)致“真實(shí)”的金融主題得分偏低。因此,必須結(jié)合領(lǐng)域?qū)<以u(píng)估的主題準(zhǔn)確率來(lái)綜合判斷。
        組織能力:高效結(jié)構(gòu)化大型金融文本數(shù)據(jù)集
        FinTextSim在組織能力上也表現(xiàn)最優(yōu)。它實(shí)現(xiàn)了高度的主題內(nèi)凝聚力(相似性0.939)和極強(qiáng)的主題間分離度(相似性-0.034)。通用嵌入模型和經(jīng)典模型則表現(xiàn)出較高的主題間相似性,表明主題存在混淆和部分混合。例如,LDA模型將所有句子壓縮到一個(gè)主導(dǎo)主題中,完全喪失了組織能力。這表明FinTextSim能夠形成清晰、結(jié)構(gòu)良好的主題簇,有效地對(duì)大規(guī)模金融文本進(jìn)行語(yǔ)義歸納。
        預(yù)測(cè)有效性:文本特征提升公司績(jī)效預(yù)測(cè)
        在下游的預(yù)測(cè)任務(wù)中,F(xiàn)inTextSim提取的文本特征展現(xiàn)出了顯著的預(yù)測(cè)價(jià)值。對(duì)于線性模型邏輯回歸(LR),加入FinTextSim生成的主題特征后,模型的ROC-AUC(70.8)和F1分?jǐn)?shù)(59.9)相比純財(cái)務(wù)基線(ROC-AUC 68.8, F1 57.8)提高了約兩個(gè)百分點(diǎn),且具有統(tǒng)計(jì)顯著性。相反,來(lái)自通用句子變換器或金融情感分析模型的文本特征反而降低了預(yù)測(cè)性能,表明它們引入了噪聲而非有效信號(hào)。經(jīng)典主題模型提供的改進(jìn)則微乎其微或前后不一致。
        對(duì)于非線性模型XGBoost,由于其更強(qiáng)的吸收噪聲特征的能力,多種文本表征都帶來(lái)了 modest 的提升。然而,F(xiàn)inTextSim仍然是所有方法中表現(xiàn)最穩(wěn)定、最一致的,取得了最高的ROC-AUC(68.6)。綜合來(lái)看,F(xiàn)inTextSim是唯一一個(gè)在線性和非線性分類器設(shè)置下都能可靠提升預(yù)測(cè)性能的文本表征方法。這證明其內(nèi)在的、更優(yōu)的主題質(zhì)量和簇分離特性,能夠直接轉(zhuǎn)化為外在的預(yù)測(cè)效用。
        結(jié)論與意義
        本研究通過(guò)系統(tǒng)性的基準(zhǔn)測(cè)試,證明了結(jié)合領(lǐng)域特定句子變換器FinTextSim的現(xiàn)代主題建模方法BERTopic,在分析金融披露文本方面具有顯著優(yōu)勢(shì)。FinTextSim能夠生成更高質(zhì)量、更相關(guān)、更易解釋的金融主題,并大幅減少信息損失。更重要的是,這些在主題建模上的質(zhì)性提升,能夠轉(zhuǎn)化為對(duì)公司未來(lái)績(jī)效(ROA變化)預(yù)測(cè)的量化益處。
        該研究的意義在于:第一,為金融文本分析提供了強(qiáng)大的、可解釋的工具,有助于投資者、分析師和監(jiān)管者更高效地從海量公司敘事中提取經(jīng)濟(jì)相關(guān)信息。第二,通過(guò)將非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化的、語(yǔ)義豐富的表征,F(xiàn)inTextSim充當(dāng)了領(lǐng)域適應(yīng)的信息過(guò)濾器,揭示了人類分析師和通用模型常常忽略的信號(hào)。第三,研究證實(shí)了公司年報(bào)文本中蘊(yùn)含的前瞻性信息具有獨(dú)立的預(yù)測(cè)價(jià)值,將其與定量財(cái)務(wù)指標(biāo)結(jié)合,可以構(gòu)建更全面、更準(zhǔn)確的公司績(jī)效預(yù)測(cè)模型,從而支持更有效的投資決策、資源分配和風(fēng)險(xiǎn)管理。
        總之,F(xiàn)inTextSim架起了可解釋性與預(yù)測(cè)效用之間的橋梁,使得從公司敘事中提取經(jīng)濟(jì)相關(guān)信息成為可能,為金融領(lǐng)域的自然語(yǔ)言處理應(yīng)用開(kāi)辟了新的道路。
        相關(guān)新聞
        生物通微信公眾號(hào)
        微信
        新浪微博

        知名企業(yè)招聘

        熱點(diǎn)排行

          今日動(dòng)態(tài) | 人才市場(chǎng) | 新技術(shù)專欄 | 中國(guó)科學(xué)人 | 云展臺(tái) | BioHot | 云講堂直播 | 會(huì)展中心 | 特價(jià)專欄 | 技術(shù)快訊 | 免費(fèi)試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號(hào)