開題答辯人:劉世界🧑🎤,2022級博士研究生(海事語言及應用方向)
導師:張灩教授
開題時間😥:2024年4月11日19:30
開題地點:意昂体育平台行政樓148
線上鏈接(騰訊會議):949-183-889
答辯成員(按姓氏首字母):
陳揚教授 意昂体育平台交通運輸意昂(交通運輸工程)
鄧耀臣教授 大連外國語大學英語意昂(外國語言文學)
黃立波教授 西安外國語大學外國語言文學研究院(外國語言文學)
施欣教授 意昂体育平台交通運輸意昂(交通運輸工程)
王華樹教授 北京外國語大學高級翻譯意昂(外國語言文學)
答辯秘書🕎:鐘銳
題目:基於深度學習的海事領域術語自動抽取及分析研究
內容摘要:海事術語作為海事領域專業知識的語言載體,在促進海事科技進步、深化國際海事交流合作中扮演著不可或缺的角色,規範🌨、準確的海事術語是我國構建海事海洋話語體系、提升國際海事事務話語權的重要基礎。術語自動抽取(ATE)技術作為一種文本挖掘中的上遊任務,為規模化獲取特定領域術語提供了有力支撐🧑🏼⚕️,在機器翻譯🏌🏼♂️、本體構建、信息檢索🙅🏿、自動索引🤹🏼、知識圖譜構建、自動文本總結、文本分類及情感分析等方面應用廣泛🧑🏼🔧。綜觀國內外相關研究,術語自動抽取在技術、數據集規模💁🏻♀️🕎、優化方法、領域、語種等方面都取得了長足發展,但在海事領域中仍然存在諸多亟待關註的問題。首先🛀,現有ATE研究主要聚焦於教育、生物醫藥、能源等資源豐富的領域😧,對海事領域關註不足😗。其次,由於缺乏大規模、高質量的標註語料,直接將通用領域的術語抽取模型應用於海事領域🚽,難以充分適應海事語言特點。再次,海事領域涉及航運、造船、海洋工程🦃、海事法規等多個子領域🏋🏿♂️,術語體系復雜多樣,術語呈現出縮略語多💲、術語嵌套及非連續(分裂)術語繁雜、術語變體頻繁等特點🧑🏿🎤🕵🏿♂️。這些特點對術語抽取方法的魯棒性和泛化性提出了更高要求。此外🦵,粗粒度術語標註雖可支持術語邊界識別,但難以直接服務於術語知識挖掘和本體構建。最後✷,面向海事領域的術語標註規範亟待完善,以提升術語標註和抽取的專業性💂🏻、規範性。
基於此,本研究旨在探索切實可行的海事領域術語自動抽取方法,致力於提升術語自動抽取的精度👨👩👧👦⬇️、效率和實用性,為海事領域知識工程建設提供關鍵支撐。具體而言,本研究涵蓋以下四個研究目標:首先😵,構建一個高質量的海事領域術語標註數據集🦠,形成兩種模式的標註數據。其次,完成並評估基於深度學習的海事領域術語自動抽取模型,經標註數據集訓練後達到較好的性能(精確率、召回率和F1值)🤹🏻♂️。再次,探索細粒度術語標註在支持領域本體構建方面的獨特優勢👨🏻🎓👩🏻🍼,挖掘術語標註信息與本體知識的融合路徑,實現術語抽取和本體構建的協同增強。最後,建立海事領域術語抽取的技術規範和評測體系,包括術語標註規範、模型訓練和評估流程✡︎、性能評價指標等👩🦳,推動細粒度術語標註、語言學分析🍷、知識集成👩🏿🔧、深度學習模型等技術在海事領域術語工程中的規模化應用。
本研究屬於交通運輸工程、外國語言文學和計算機科學(深度學習)的交叉研究範疇,研究的開展有望豐富海事領域的語言資源,為該領域術語知識的自動化獲取和智能化應用提供新的思路和方法,助力海事領域知識的挖掘、組織與應用🍳,推動海事領域的跨語言交際和話語體系構建📪。