如果您正在尋找一個工具來自動比較兩個不同的文本,美國的 Text Similarity API 可以幫助您。這個 API 可以評分兩個單詞、句子或段落之間的語義相關程度。
使用 Text Similarity API 的一個重要應用是文本分類。文本分類通常需要建立自訂分類法。由於建立和更新自訂分類法的難度和時間消耗,我們建議通過 Text Similarity API 來獲取文本分類結果。
如何運作?
Text Similarity API 的“數值”不是標準化的相似度。您可以在方便時依賴“相似度”或“數值”。得分或數值越高,這些文檔的語義相關性越高。
美國的 Text Similarity API 考慮了基於單詞關聯數據庫的相關單詞。例如,“母親愛兒子”和“父親愛女兒”僅重複一個單詞,但我們可以通過語義理解獲得高於 0.3 的得分。
[相似度:0.59] 我愛一隻狗 我不喜歡一隻狗
[相似度:0.95] 我討厭一隻狗 我不喜歡一隻狗
如果給定的文檔中有太多功能詞和代詞而不是內容詞,我們的 Text Similarity API 可能無法檢測到相似度。
換句話說,Text Similarity API 提供的僅是語義相似度。涉及語法相似度,很多程式語言都提供。例如,PHP 的 Levenshtein 函數提供了給定兩個字符串的語法分數。
我們不建議在單詞之間進行比較,因為這非常有限。Text Similarity API 擅長比較句子或段落以識別語義關係。
能構建什麼?
開發人員可以使用這項技術構建許多工具。這裡列出了一些想法:
- 文件搜尋引擎以檢索最相關的文檔。
- 可以自動篩選大量文本並進行分類的軟體。如果您有每個類別的範例文本,當給定新文本時,只需使用 API 查看它與哪個類別範例最相關。
- 抄襲檢查工具,用於檢測兩篇論文或文章是否相關且相同,即使它們沒有使用相同的詞彙。
如果您可以自動知道任何兩段文本之間的距離和關係,您會構建什麼?
使用 Text Similarity API 進行文本分類
使用 Text Similarity API 的一個重要應用是文本分類。文本分類通常需要建立自訂分類法。由於建立和更新自訂分類法的難度和時間消耗,我們建議通過 Text Similarity API 來獲取文本分類結果。
這很簡單。只需使用文本相似度 API 判斷給定文本與給定類別的接近程度。使用此方法,您可以立即檢查您的自訂分類法。
以下是使用 Text Similarity API 獲取分類結果的輸入,以檢查給定文本是否屬於“自行車配件”類別。
文本1:自行車、戶外娛樂、運動用品、騎行、手套、頭盔、護膝、護肘
文本2:如果你騎滑板車,最安全的做法之一是戴上頭盔。有很多選擇和樣式,所以你可以輕鬆找到適合自己需求的頭盔。
同樣地,對於“食品”類別,您可以嘗試以下內容(文本1是您對食品類別的理解,而文本2是自動文本分類的目標文檔):
文本1:食物、牛奶、水、鹽、氣味、成分、味道、披薩、麵包、雞湯、蘋果、香蕉、莓果
文本2:如果你騎滑板車,最安全的做法之一是戴上頭盔。有很多選擇和樣式,所以你可以輕鬆找到適合自己需求的頭盔。
顯然,第一個比較會比第二個比較獲得更高的得分。因此,給定的文本(文本2)將被分類為“自行車配件”類別。
請嘗試免費的文件相似度檢測演示版以試用此 API。