跳转到内容

英文维基 | 中文维基 | 日文维基 | 草榴社区

实体搜索引擎

本页使用了标题或全文手工转换
维基百科,自由的百科全书
本条目属于网络搜索引擎系列
网络搜索引擎
元搜索引擎
国际性搜索引擎(多语言)
Google
Yahoo! Search
Bing
仅中文搜索引擎
百度
360搜索
搜狗
yam蕃薯藤
其他搜索引擎
DuckDuckGo
Ecosia
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
Qwant英语Qwant
其他链接

实体搜索引擎Physical search engine)或者称为线下搜索引擎Off-line search engine),也称为物联网搜索引擎IoT search engine),实体搜索是一种对应线下实体资讯的检索系统,也是应用万维网进行搜索的机制, 搜索结果类似网络搜索引擎,以条列方式展示结果,亦称为搜索结果页 (Search engine results page,SERP) ,实体搜索引擎以搜索者指定的方位为中心显示结果,将其搜索得到的资讯做距离排序,排序距离的规则由近到远,若资讯是同一距离时,则会加入SEO与服务状态等因素做排序,这一点不同于网络搜索引擎仅以SEO排序,其显示的资讯的链接同样可以链接至网页、影片、或其他开放的服务资讯。搜索引擎的搜索资料技术,使用自动化资讯汇整方式达成,一般做法以网络爬虫 (web crawler)运行算法得出资讯。实体搜索引擎对应实体世界实现各类资讯的搜索入口,搜索机制与互联网搜索引擎相似,各类线下服务只需提供Web页面,不需要额外制作线下搜索App (例如 UberLyftFoodpanda, ...等Apps); 实体世界的服务与资讯搜索, 不论是定点的资讯, 或是移动的资讯,经由关键字搜索便可达到实时搜索的目的。

发展历史

[编辑]

1990年Montreal大学学生发明了Archie英语Archie (search engine),这是追溯网络搜索的最早发展概念,当时万维网还没有出现,他们整理了FTP站点上所有档的目录列表,创建了一个可对文件名称进行搜索的数据库,因此Archie被称为搜索引擎的始祖。

1993年Matthew Gray开发了Wanderer[1],Wanderer的技术是第一个Spider Robot,并在Web上搜索索引页面目录的技术,而后Jonathon Fletcher创建了JumpStation系统[2],它是世界上第一个具备 抓取、索引和搜索集于一体的搜索引擎,接着搜索引擎的另一个重大发展为网络爬虫(WebCrawler),1994年搜索引擎开始导入网站全文索引概念,它支持用户搜索任一网页中的任一个搜索词,而不是仅对网页标题进行索引。

1994年,Carnegie Mellon 大学Michael Mauldin[3]博士成立Lycos,开发以页面网址追踪的Robot技术,Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。接着, Netherlands软件工程师 Martijin Koster, 提出Robots Exclusion Standard[4]的 R E S概念,通过 robots.txt 抓取网址页面,网络资讯自动化搜索自此得到完整的发展架构。

1995年12月AltaVista推出自然语言搜索的搜索引擎,具备了基于网页内容分析,智慧处理的能力,第一个实现高级搜索语法(例如:AND、OR、NOT等)。同时期还有inktomiHotBot等搜索引擎的竞争者。

1996年Larry Page和Sergey Brin[5],为了解决搜索结果的客观排序问题,建立一个大量链接的数据库,藉以找出每个网页的链接会通向什么网站, 因而决定网站以链接数量排名的“PageRank”机制。1998年10月,Google诞生,它成为了目前世界上最流行的搜索引擎。

1999年Auto-ID公司Kevin Ashton应用物品编码RFID技术,最早提出了“物联网”的概念,而后在2005年国际电信联盟(ITU)发布的报告中,将物联网的覆盖范围延伸拓展,目标在实现人类社会与物理系统的集成,物联网与物理系统开始有了对应概念。

2004年Glasgow大学提出最早的实体搜索引擎技术概念, 开发开源搜索引擎技术Terrier[6],利用RFID以及联网装置对应实体方位的做法, 实现实体物件的搜索方法, 并期望在2014年实现实体世界的搜索应用, 但最终此构想没有如期完成。Snoogle[7]以及St. Joseph Engineering College[8], 也有类似的架构提出实体搜索引擎技术。

2005年2月在Google部落格上首次公布Google地图,它实现了云端资讯对应线下实体资讯的搜索的系统。Google地图的服务资讯没有应用网络爬虫进行云端资讯集成,其资讯来源为Open data,以及用户自行上架的资料,它虽然不是典型的搜索引擎,但其应用则开启线下资讯搜索的开端。Google地图目前在全球多国开通了“街景”(Street View)服务,用户可以通过由Google金龟车在街道上拍到的影像查看街景。2011年10月7日,Google地图新增了3D鸟瞰功能。

2008年Apple发展并建立AppStore服务机制,行动服务市场的开始爆发,智能电话以App做为核心的应用,引爆了移动“互联网”概念,并开启了“物联网”时代,服务类型开始着重在用户与实体资讯关系,早期的车队的管理架构,应用App开始走向开放服务市场,发展至今线下普遍以App做为线下搜索应用例如,Uber、Lyft、Foodpanda等。

2011年7月浙江大学[9]提出以URL结合定点方位, 对应实体物件的Web资讯, 实现实体搜索引擎方法与架构, 以及2011年12月InTimeGo[10]提出Web资讯结合定点与移动方位的方法,开启物联网(IoT)与 Web 融合的概念,这个使用情境称之为 Web of ThingsWoT)。Web世界的URL可以说是链接的基础,每个物件都可利用特定URL来对应其特有资讯与方位,WoT 概念之所以重要,在于开始有了 Web 实体化的应用概念, 过去 Web 只是物品云端上的资讯,WoT 让Web资讯开始对应到真正的实体方位。2016年Google应用此概念, 发表类似iBeacon读取近端实体资讯的方法, 命名为“The Physical Web”计划, Google对于“The Physical Web”发展构想, 希望进而实现近端实体搜索的机制[11]

2011年10月武汉大学首先发表实体搜索爬虫和资讯抽取研究方法[12],开启了自动化资讯汇整的实体搜索引擎创新思维, 但网络爬虫汇整的实体资讯,除了实体位置还包含各类服务的状态资讯, 如何制定涵盖广泛的服务应用规范与定义, 最终为实体搜索引擎的资讯集成能力的指针, 对此微软公司[13]以及中国大陆的电子科技大学[14]东南大学[15]等, 也陆续提出相关的应用规范与定义。

2014年11月Amazon AlexaAmazon智能音箱Echo一同发布。其概念源自于Apple的语音应用, 借由Siri语音呼求,为实现线下服务搜索集成入口,并达到物联网装置互联的机制,Amazon Alexa提供一种与App应用服务串接的方法,名为 Alexa Skills Kit (ASK) 的开发包,它是一种开放式的串接接口,实际上是把物联网相关业者的服务汇整在一起,利用语音呼求的方式,达成本地化的服务搜索机制,不过这样的服务串接方案所费不赀,Amazon推出1亿美元的Alexa Fund,以鼓励开发者参与Alexa语音技能的开发,Amazon从创新性、消费者关系度、与 ASK 的关系度等角度衡量开发者项目,一旦通过就会提供一笔资金反馈业者。Amazon Alexa虽然并非典型的搜索引擎,但对于线下移动服务搜索方式,则为第一个实现线下服务搜索集成入口的架构,其后Google、Microsoft百度阿里巴巴腾讯京东等后进者,也纷纷推出类似架构的线下服务搜索集成入口。

2017年9月创新工场李开复首先发表了一个新的商业模型: OMOOnline-Merge-Offline)在线线下虚实融合模式[16],OMO 是O2O营销模式的巨大演进,且预测在10年内完成在线线下一体化,汽车、商店、商场、诊所和学校等现实世界的场景和行为即时资料化,自此,资料世界和实体世界将完全集成,在线线下的界限消失,将让互联网对实体行业的渗透率提升至100%。李开复认为,未来OMO的新商业浪潮将推动,未来发展在线线下融合的新零售、实体世界的资料化以及实体搜索等领域,再加上AI技术的辅助,将会缔造巨大的蓝海商机与愿景[17]。OMO驱动潮流之下, 互联网下一个焦点将朝向新零售服务、线下服务搜索以及线下大数据发展,也为实体搜索入口的发展铺陈一个全新愿景。

2019年8月大千搜索提出定点或移动位置数据的集成规范[18],发布首个自动化资讯汇整的实体搜索引擎[19],其构想的方法源于大千搜索创办人黄柏尧,首先定义“互联网”与“物联网”服务模型之差异[20],以厘清“互联网”与“物联网”相互之间的混淆概念,应用其“物联网服务模型”集成实体各类服务资讯与方位,延伸云端搜索引擎的技术运作机制,以Web资讯结合Location成为Location Web,实现服务资讯的OMO (Online-Merge-Offline)虚实融合效益,并借由网络爬虫自动汇整线下的人/车/物资讯,成就一站式的线下资讯搜索入口。

2019年10月Gabriel Rene提出“The Spatial Web”概念[21]Spatial Web是一种场域空间虚实融合的技术,每个场域空间可以独立建构应用,如果要构成实体世界的连续性视角,将面临不同场域空间的衔接问题,不过基于Web3.0驱动Spatial Web开放系统, 可以为未来场景统合与衔接的发展铺路。对于实体搜索引擎应用发展而言,应用Location Web概念,可以解决不同应用服务领域资讯统合问题,而Spatial Web可以将Location Web的资讯呈现方式, 扩展成为对应三维空间的形相与方位。

2020年物联网领域知名顾问公司SRI Consulting描绘之物联网技术路线,综合物联网发展的类型与目标, 归纳物联网依据时间轴发展, 可分为四个阶段分别为:供应链辅助、垂直市场应用、无所不在的寻址(Ubiquitous positioning),最后可以达到“The Physical Web”,意即让物联网上的每一个智慧装置都以URL来标示[22],呼应实体世界的每个物件都可利用特定URL来对应其特有资讯与方位,据此发展趋势,实体搜索引擎将更易于获取实体资讯。

技术与服务差异

[编辑]

搜索引擎之服务功能差异

[编辑]

实体搜索引擎承袭了网络搜索引擎的主要技术架构, 但为了区别搜索引擎服务功能的世代差异, 以下将之分别称为“互联网”搜索引擎与“物联网”搜索引擎。 “互联网”与“物联网”的差异在于,互联网仅将资讯引导至在线,物联网则是将资讯达成线下在线融合,物联网其实就是线下在线虚实融合的发展趋势, 这也相应于创新工场李开复先生所提的OMO (Online-Merge-Offline)服务模式 。物联网与实体世界服务类型其实完全一致, 物联网的发展目标, 则是在在线创造一个对应线下实体的世界, 目的在解决人类因地域的资讯限制, 可以借由线下实体搜索与大数据服务, 提升周遭资讯的服务性能, 藉以创造更加“直接”“即时”“便利”的生活方式。

实体搜索引擎具备之特点

[编辑]

线下在线虚实融合的搜索应用, 目前有了Google 地图, 为何还是需要发展物联网搜索引擎呢? 其实这个症结在于Google地图并非搜索引擎, 最终发展的潜力将不及搜索引擎 , 如同2000年以前Yellow Page与搜索引擎的竞争, 最终Yellow Page资料总量不敌搜索引擎的量级而退场。搜索引擎可以创造资料总量的优势, 至少需具备以下三个特点:

  • 搜索引擎资料来自不同的系统: 资料来自不同的系统, 也就是来自不同的伺服器, 如此可以跨应用跨服务集成, 也进而达成搜索线下万物的搜索入口 , 届时也不需要额外制作线下搜索App, 例如 Uber, Foodpanda这类App, 可以直接经由物联网搜索引擎, 便可搜索线下所有服务。
  • Spider Robot资讯收集机制: 创建Robot机制的目的在于, 自动汇集全球资讯 ,比起资料来源于自家建立, 或者自家会员提案, 拥有更为巨大的量级潜力。
  • 优异准确率的搜索能力: 搜索产出的结果关系于Ranking演算技术, “互联网”与“物联网”有其差异, 所以相互间无法直接套用, “物联网”需要考量服务距离, 服务状态等因素, 加入索引与排序的演算机制, 需要重新优化之后, 才能实现满意的搜索结果。

而Google 地图搜索方式, 依据标题与分类的关键字等因素得出结果, 搜索演算尚属直觉简单, 估计仍在发展阶段, 然而最关键的因素在于, Google 地图没有符合前两个特点的任一项 , 如同Yellow Page搜索机制, 最终将成为物联网时代的过渡性搜索应用。

Web发展的必要性

[编辑]

综观现阶段线下实体搜索方式,普遍以App做为线下搜索应用 (例如,Uber、Foodpanda等) ,事实上App应用架构难以实现跨应用跨服务的集成入口。移动设备发展初期,因为硬件性能不足的因素,App相比于Web拥有较佳的性能表现,所以PC或移动设备发展初期, 都是优先发展App应用, 回顾PC的发展史,一开始便先发展App应用, 然后慢慢过渡到Web应用,例如过往在PC玩游戏, 或查阅字典, 过往都需要安装App,现在的PC已甚少安装App的面向来看,移动设备应不难推测将历经相同的发展过程。目前主流App设计采用的是资料串接方式,实际上这是一种封闭架构,难以如同开放性的Web具备跨应用跨服务的资讯集成特性,加之客户端实际上安装App数目有限,大部分Apps在客户端没有市场,根据Adjust近年App应用的统计数据得知,前十排名的App便占据八成五以上流量,并且高达九成以上的僵尸App [23],这已形成非常严重的软件资源浪费,App应用架构若没有相应方案改善, 不仅不利于发展资讯共享的任何服务,也不利于发展跨应用的线下服务集成入口,故驱使W3C (World Wide Web Consortium)开始着眼定义物联网 (Internet of Things)前瞻的应用规范,以Web 或Web of Things [24]WoT英语WoT)方式推动线下服务应用。

参考资料

[编辑]
  1. ^ 1993-06, Matthew Gray Develops the World Wide Web Wanderer.. [2021-02-22]. (原始内容存档于2020-08-07). 
  2. ^ 2013-09-03, Jonathon Fletcher: forgotten father of the search engine. [2021-02-22]. (原始内容存档于2021-02-28). 
  3. ^ 2021-02-21, Lycos founder Mauldin returns to company after 17 years. [2021-02-22]. (原始内容存档于2018-03-03). 
  4. ^ 2013-12-15, What is the Robots Exclusion Standard?. [2021-02-22]. (原始内容存档于2020-10-01). 
  5. ^ 2019-06, Larry Page and Sergey Brin
  6. ^ 2012-06-14, Search Engine Queries Physical World In Real Time. [2021-03-06]. (原始内容存档于2021-01-19). 
  7. ^ 2004-12, Snoogle: A Search Engine for the Physical World
  8. ^ 2017-06, Search Buddy: A Search Engine for Physical Objects. [2021-03-06]. (原始内容存档于2019-10-02). 
  9. ^ 2011-07, What-you-retrieve-is-what-you-see: a preliminary cyber-physical search engine (PDF). [2021-03-23]. (原始内容存档 (PDF)于2020-01-25). 
  10. ^ 2011-12-21, 物件搜尋服務引擎及移動資訊管理系統架構 (PDF). [2021-03-23]. (原始内容存档 (PDF)于2021-01-09). 
  11. ^ 2016-02-19, With The Physical Web, You Become The Search Engine. [2021-03-23]. (原始内容存档于2021-01-27). 
  12. ^ 2011-10, 实体搜索爬虫和资讯抽取研究方法[失效链接]
  13. ^ 2012-12, 基于实体的搜索和解析
  14. ^ 2014-10, 基于Web的实体资讯提取和搜索研究[失效链接]
  15. ^ 2015-01, 一个面向语义 Web的实体探索系统
  16. ^ 2017-12-12, 李开复畅谈OMO时代的出行
  17. ^ 2017-11-30, BAT之后下一个超级公司会从OMO领域中产生
  18. ^ 2019-12-09, 线下服务应用与HTML规范发展[失效链接]
  19. ^ 2019-11-20, 線上線下萬物聯網 「大千搜尋」首創實體搜尋引擎服務. [2021-02-22]. (原始内容存档于2021-01-08). 
  20. ^ 2020-04-21, 解析物聯網的真實商機與發展方向. [2021-04-10]. (原始内容存档于2021-01-09). 
  21. ^ 2020-10-02, An Introduction to The Spatial Web. [2021-04-12]. (原始内容存档于2021-07-05). 
  22. ^ 2020-08-13, APPENDIX F: THE INTERNET OF THINGS (BACKGROUND). [2021-04-10]. (原始内容存档于2021-04-10). 
  23. ^ 2016-09-05, Statista: 90% Of All iOS Apps Are Zombies. [2021-02-22]. (原始内容存档于2021-01-09). 
  24. ^ 2021-02, WEB OF THINGS AT W3C. [2021-02-22]. (原始内容存档于2021-03-09).