如果您正在尋找一個工具來自動比較兩個不同的文本,美國的 Text Similarity API 可以幫助您。這個 API 可以評分兩個單詞、句子或段落之間的語義相關程度。

使用 Text Similarity API 的一個重要應用是文本分類。文本分類通常需要建立自訂分類法。由於建立和更新自訂分類法的難度和時間消耗,我們建議通過 Text Similarity API 來獲取文本分類結果。

如何運作?

Text Similarity API 的“數值”不是標準化的相似度。您可以在方便時依賴“相似度”或“數值”。得分或數值越高,這些文檔的語義相關性越高。

美國的 Text Similarity API 考慮了基於單詞關聯數據庫的相關單詞。例如,“母親愛兒子”和“父親愛女兒”僅重複一個單詞,但我們可以通過語義理解獲得高於 0.3 的得分。

[相似度:0.59] 我愛一隻狗 我不喜歡一隻狗

[相似度:0.95] 我討厭一隻狗 我不喜歡一隻狗

如果給定的文檔中有太多功能詞和代詞而不是內容詞,我們的 Text Similarity API 可能無法檢測到相似度。

換句話說,Text Similarity API 提供的僅是語義相似度。涉及語法相似度,很多程式語言都提供。例如,PHP 的 Levenshtein 函數提供了給定兩個字符串的語法分數。

我們不建議在單詞之間進行比較,因為這非常有限。Text Similarity API 擅長比較句子或段落以識別語義關係。

能構建什麼?

開發人員可以使用這項技術構建許多工具。這裡列出了一些想法:

  • 文件搜尋引擎以檢索最相關的文檔。
  • 可以自動篩選大量文本並進行分類的軟體。如果您有每個類別的範例文本,當給定新文本時,只需使用 API 查看它與哪個類別範例最相關。
  • 抄襲檢查工具,用於檢測兩篇論文或文章是否相關且相同,即使它們沒有使用相同的詞彙。

如果您可以自動知道任何兩段文本之間的距離和關係,您會構建什麼?

使用 Text Similarity API 進行文本分類

使用 Text Similarity API 的一個重要應用是文本分類。文本分類通常需要建立自訂分類法。由於建立和更新自訂分類法的難度和時間消耗,我們建議通過 Text Similarity API 來獲取文本分類結果。

這很簡單。只需使用文本相似度 API 判斷給定文本與給定類別的接近程度。使用此方法,您可以立即檢查您的自訂分類法。

以下是使用 Text Similarity API 獲取分類結果的輸入,以檢查給定文本是否屬於“自行車配件”類別。

文本1:自行車、戶外娛樂、運動用品、騎行、手套、頭盔、護膝、護肘

文本2:如果你騎滑板車,最安全的做法之一是戴上頭盔。有很多選擇和樣式,所以你可以輕鬆找到適合自己需求的頭盔。

同樣地,對於“食品”類別,您可以嘗試以下內容(文本1是您對食品類別的理解,而文本2是自動文本分類的目標文檔):

文本1:食物、牛奶、水、鹽、氣味、成分、味道、披薩、麵包、雞湯、蘋果、香蕉、莓果

文本2:如果你騎滑板車,最安全的做法之一是戴上頭盔。有很多選擇和樣式,所以你可以輕鬆找到適合自己需求的頭盔。

顯然,第一個比較會比第二個比較獲得更高的得分。因此,給定的文本(文本2)將被分類為“自行車配件”類別。

請嘗試免費的文件相似度檢測演示版以試用此 API。