跳至內容

SimHash

維基百科,自由的百科全書

SimHash是一種局部敏感的散列算法,由Moses Charikar提出。例如,當兩個字符串只有細微差別時,它們的Simhash散列值同樣會非常接近,這種特徵就稱為局部敏感。[1]因此,Simhash可用於檢查兩項內容的相似程度,如文檔去重、檢測垃圾郵件和近似重複內容[2]、被Google爬蟲用於查找近似重複頁面等。在2021年,谷歌宣佈決定在新發佈的FLoC系統中使用該算法。[3]

參考文獻[編輯]

  1. ^ Bhargava, Aditya. 算法图解. 由袁國忠翻譯. 北京: 人民郵電出版社. 2017: 178–179. ISBN 978-7-115-44763-0. 
  2. ^ Otten, Neri Van. SimHash — The Ultimate Guide And How To Get Started Guide In Python. Spot Intelligence. 2023-01-02 [2024-03-30]. (原始內容存檔於2024-03-30) (美國英語). 
  3. ^ Cyphers, Bennett. Google’s FLoC Is a Terrible Idea. Electronic Frontier Foundation. 2021-03-03 [2024-03-30]. (原始內容存檔於2021-06-26) (英語).