什麼是詞形還原?

詞形還原與詞幹提取密切相關。在語言學中,它是將單詞的不同屈折形式分組,以便可以作為單一項目進行分析。舉例來說,“computers” 是 “computer” 的屈折形式,與 “dogs” 是 “dog” 的屈折形式相同。簡單來說,詞形還原就是將單詞的不同形式返回到其根形式。雖然我給的例子都是名詞,但不要誤以為這僅適用於名詞。詞形還原同樣適用於形容詞、動詞,如下所示:

  • Constructing – (詞形還原) -> Construct
  • Extracts – (詞形還原) -> Extract
  • Singing – (詞形還原) -> Sing

乍一看,這似乎相當簡單。但是在處理像 “Worker” 和 “Speaker” 這樣的單詞時可能會引起混淆。“Worker” 不是 “Work” 的屈折形式,而 “Speaker” 也不是 “Speak” 的屈折形式。那是因為 “Speaker” (名詞) 指的是講話的人(尤其是發表公共演講的人或特別健談的人),而 “Speak” (動詞) 是發表演講的行為。在上述例子中,儘管單詞似乎帶有某個詞的基本根,但不應將其誤認為屈折形式。

簡單的規則是記住詞形還原會改變動詞形式,但保持單詞的意思不變。

現在您已經了解了詞形還原的基本概念,現在讓我們更專注於 Lemmatizer API 的實際應用。

英語是世界上使用最廣泛的語言之一,擁有超過 3.35 億的母語使用者。根據您的所在位置,英語可能會有些不同。不考慮口音和俚語,有時單詞會有兩種不同的拼寫方式:英式英語或美式英語列舉幾個例子:

如何編程使計算機識別相同單詞的不同拼寫?解決方案是整合 Lemmatizer API。不僅僅是簡單地將單詞返回到它們的根形式,Lemmatizer API 還識別 “Colour” = “Color”,“Organise” = “Organize”。

Lemmatizer API 的用途

  • 搜尋引擎/工具/擴展功能 詞形還原對搜索軟件非常有用。例如搜索 “big dogs” 會觸發對 “big dog” 的搜索,“Theatre in San Francisco” 會觸發對 “Theater in San Francisco” 的搜索。不僅僅是搜尋引擎,搜索工具也常常內建有相同的功能。

  • 教育軟件/應用程序 詞形還原 API 也適用於英語學習軟件或應用程序。它可以用來構建需要學習者識別和識別單詞不同形式並將其匹配到根形式的應用。例如,識別 “goes”、“gone” 和 “went” 是動詞 “go” 的屈折形式。

  • 文本分析 隨著文本分析對企業的重要性日益提高,開發一個全面的文本分析工具對於實現這一目標至關重要。詞形還原 API 的演示頁面可以讓您了解它的實際應用。

PS: 你知道 “is”、“was” 和 “were” 是 “be” 的屈折形式嗎?