SimHash

维基百科,自由的百科全书

SimHash是一种局部敏感的散列算法,由Moses Charikar提出。例如,当两个字符串只有细微差别时,它们的Simhash散列值同样会非常接近,这种特征就称为局部敏感。[1]因此,Simhash可用于检查两项内容的相似程度,如文档去重、检测垃圾邮件和近似重复内容[2]、被Google爬虫用于查找近似重复页面等。在2021年,谷歌宣布决定在新发布的FLoC系统中使用该算法。[3]

参考文献[编辑]

  1. ^ Bhargava, Aditya. 算法图解. 由袁国忠翻译. 北京: 人民邮电出版社. 2017: 178–179. ISBN 978-7-115-44763-0. 
  2. ^ Otten, Neri Van. SimHash — The Ultimate Guide And How To Get Started Guide In Python. Spot Intelligence. 2023-01-02 [2024-03-30] (美国英语). 
  3. ^ Cyphers, Bennett. Google’s FLoC Is a Terrible Idea. Electronic Frontier Foundation. 2021-03-03 [2024-03-30] (英语).