跳至內容

英文维基 | 中文维基 | 日文维基 | 草榴社区

文字蘊涵

維基百科,自由的百科全書

文字蘊涵(Textual entailment,TE)自然語言處理是一個文字片段之間的定向關係。擁有一個文字片段的含意時,可以從另一個文字如下關係。TE的框架中,將會導致必須需要的文本被稱為文本(T)和假設(H)作為分別。文字蘊涵是不一樣的純邏輯蘊涵,它有一個更寬鬆的定義:"T推導到H"(T⇒H),通常情況下,如果一個人閱讀T將推斷為H是最有可能的正確的關係[1]。文字蘊含關係是有方向性的,如正向的"T推導到H"或反向的"H推導到T"[2][3]

自然語言的歧義

[編輯]

自然語言的一個特點是,有許多不同的方式說出你想說什麼:可以通過不同的文字表達相同的含義,可以包含在一個單一的文字和幾個含義。這種語義表達的變化可以看出,作為雙語言歧義的問題。他們一起導致在許多一對多的語言表達和意義之間的映射。正確解釋文本,就需要在理論上深入到了它的含義的邏輯代表性的語義解釋。自然語言處理是確實可行的解決辦法,並在更簡易的方式使用文字蘊涵。

識別文字蘊涵

[編輯]

許多自然語言處理的應用程序一樣,問答(QA)的信息抽取(IE)的(多文檔)匯總和機器翻譯(MT)的評價,需要這種可變性現象的一個模型,為了一個特殊目標意思可以從不同的文本變形被推斷。2004年識別文字蘊含(TER)提議作為橫跨許多自然語言處理應用[2]的主要語義推斷需要的一項普通任務。建立文本蘊涵的數學解決方案可以根據這種關係的方向性,然關係的方向所涉及的文字之間的一些相似的比較。
目前RTE在國際間被關注研究應用在不同語言中,如2011年日本NTCIR-9[4]大會就將簡體中文、繁體中文、日文的RTE列為比賽項目。

範例

[編輯]

正向蘊涵

[編輯]

文本T:日本時間2011年3月11日,日本宮城縣發生黎克特制震級9.0強震,造死傷失蹤約3萬多人。
假設H:日本時間2011年3月11日,日本宮城縣發生黎克特制震級9.0強震。

矛盾蘊涵

[編輯]

文本T:張學友在1961年7月10日,生於香港,祖籍天津。
假設H:張學友生於1960年。

獨立蘊涵

[編輯]

文本T:黎姿與"殘障富豪"馬廷強結婚。
假設H:馬廷強為香港"東方報業集團"創辦人之一馬惜如之子。

參考資料

[編輯]
  1. ^ Ido Dagan, Oren Glickman and Bernardo Magnini. The PASCAL Recognising Textual Entailment Challenge, p. 2頁面存檔備份,存於互聯網檔案館in: Quiñonero-Candela, J.; Dagan, I.; Magnini, B.; d'Alché-Buc, F.(Eds.)Machine Learning Challenges. Lecture Notes in Computer Science , Vol. 3944, pp. 177-190, Springer, 2006.
  2. ^ 2.0 2.1 Dagan, I. and O. Glickman. 'Probabilistic textual entailment: Generic applied modeling of language variability'頁面存檔備份,存於互聯網檔案館) in: PASCAL Workshop on Learning Methods for Text Understanding and Mining(2004)Grenoble.
  3. ^ Tătar, D. e.a. Textual Entailment as a Directional Relation (PDF). [2012-02-14]. (原始內容存檔 (PDF)於2011-08-11). 
  4. ^ NTCIR-9 RITE. [2012-02-16]. (原始內容存檔於2011-11-17).