自然語言處理, 斷開鎖鏈斷開魂結!

Share This Post

自然語言處理是什麼?以及它的應用

自然語言處理的定義

自然語言處理 (NLP) 是人工智慧的分支領域。
使用機器學習技術來處理及解讀文字和資料。
自然語言辨識和自然語言產生均為 NLP 的類型。

自然語言處理及其對交流影響的 8 個常見範例

  1. 電子郵件篩選器
    • Gmail 的電子郵件根據內容分類主要、社交或促銷
  2. 智慧助理
    • Apple 的 Siri 和 Amazon 的 Alexa根據了解使用者的話並根據背景資訊供相關答案
  3. 搜尋結果
    • Google搜尋引擎中的搜尋中的 NLP 將模糊查詢與相對實體相關聯會預測哪些熱門搜尋,並在查詢時顯示,且會檢視整個圖片並識別搜尋的內容,而不是確切的搜尋字詞。
  4. 預測文字
    • 智慧手機鍵盤根據使用者輸入的內容、要修飾的單字或建議相關內容來預測要說的內容,根據使用者的個人語言偏好進行設定。
  5. 語言翻譯
    • 線上翻譯人員可以更準確翻譯語言並顯示語法正確的結果。嘗試與操持另一種語言的人交流時,這相當實用。不僅如此,現在,將另一種語言翻譯成您操持的語言時,工具也可以根據輸入的文字識別該語言並進行翻譯
  6. 數位通話
    • 玉山銀行中國信託,透過NLP模型分析客服電話對話、找出顧客問題,再自動發送相關資訊給顧客。
  7. 資料分析
    • 資料視覺化提供自然語言介面,自然語言功能已整合到資料分析工作流程中。
  8. 文字分析
    • NLP 的工具通常會搜尋與客戶的互動,例如社交媒體評論或回顧,甚至搜尋品牌名稱提及的情況來檢視所說的內容。

      圖片來源

如何理解一種語言?

詞彙是語言的最小單位,但中文中詞」和「詞」之間沒有邊界。

現代中文中常見的三歧義:

  1. 組合型歧義:在句法結構上就能解是哪些組合是對的
    • 小紅帽 =>小紅/帽 小/紅帽 || 小/紅/帽 小紅帽
  2. 真歧義:「語言」層和「知識」層兩個維度各自解讀
    • 美國會派出特使來採訪 => 「美國」|| 「美國國會」
    • 銀河帝國會派出特使來採訪
  3. 交集型歧義:「語言」層和「語境」兩個維度各自解讀
    • 我幫爸媽買了一個超值保險套餐
    • 你在做一次試試看

歧義是語境線索的不足而導致句子無法得到適宜解釋的現象,具有兩種以上的詮釋或意義

語言學概論的概論的概論

=> 人類大腦結構功能一致的
=> 人類都具有一樣的語言處理機制
=> 人類母語語言學習習得機制允許參數的改變
=> 所有語言的差異都來自參數的差異
=> 參數的變化是有限的 
=> 可以寫出程式!

語言學家已分析了某些語言結構的邏輯
因此基於這些存在的語言學知識來教電腦歸納出語言的特性

小節語:

語言有內部結構;語言內部結構可以用規則處理;語言規則的數量有限

要先教電腦學會「斷詞」和「理解詞的意思」,第二步則是分析句子,包含語法及語義的自動解析。


中文的詞沒有邊界,若誤解「詞的意思」與「句法結構」,會寫出這般造句練習。資料來源│網路趣聞

如何教電腦學會一種語言?

電腦可以認識所有「詞」嗎?

語言的詞彙組合無窮無盡,不可能將所有詞都收進資料庫中訓練電腦,通常未知詞可分為幾種類型:可能是人名、可能是複合詞、或可能是專有名詞。


(中文斷詞系統的處理步驟。 資料來源│〈未知詞擷取作法〉,作者:馬偉雲)

「複合詞」,舉不勝舉的未知詞來源

目前斷詞系統中的複合詞主要是針對「名詞複合詞」,但其實我們也在「動詞複合詞」上也累積了不少研究。舉一個實例來說明,例如「開聊」和「聊開」:

(「開」的複合動詞結構舉例。 資料來源│〈現代漢語複合動詞之詞首詞尾研究〉,作者:邱智銘、駱季青、陳克健)


(語言學家會把這樣子的斷詞標注清楚,供電腦進行機器學習。經過不同語句的大量標注,電腦最後會自己學會利用「才能」的上下文做判斷。 資料來源│馬偉雲說明)