信息传输/软件/信息技术服务
互联网
搜索
服务
互联网搜索服务


简介

互联网搜索服务多见于搜索引擎,如百度、谷歌等;同时也存在于一些信息繁多、难于快速查找的网站中。搜索服务帮助人们抓取到大量信息并整理,为人们的生活提供面面俱到的帮助。早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是搜索引擎的原型。

评判标准

由于搜索引擎主要以自动方式在网上搜索信息,经过标引形成索引数据库。索引数据库的构成是网络检索工具检索效果实现的基础,主要采用标引深度和更新频率两个指标;检索工具提供的检索功能也是评价搜索引擎的重要指标,如除了提供传统的检索功能外,是否可提供多媒体检索功能、多语种检索功能、自然语言检索功能和相关反馈等。在检索效果评价方面,除查全率、查准率和响应时间外,还应将重复链接数量和死链接数量作为评价指标。用户负担和检索结果的显示与传统评价指标相类似。传统的信息检索效果评价,通常以查全率、查准率和响应时间 3 个指标为主。但随着因特网信息检索的兴起,信息量的急剧增加,对信息检索效果的评价又增加了新的内容。1973 年美国学者 Lancaster 和 Fayen 曾列出 6 项衡量信息检索系统的评价指标,即覆盖范围(Coverage)、查全率(Recall Ratio)、查准率(Precision Ratio)、响应时间(Response Time)、用户负担(Uset Effort)和检索结果输出格式(Formt out put)。应该说,这些指标虽是 30 年前提出的,并且针对的是传统联机检索系统,但是就信息检索系统的本质来说,对搜索引擎的评价仍然有一定的借鉴作用。Heting Chu, Marilyn Rosenthal 在对 Alta Vista, Excite 和 Lycos 三个搜索引擎进行比较研究之后提出应该从标引、检索能力、检索效果、输山、用户负担方面评价搜索引擎。国内研究人员曾民族在综合国内外搜索引擎评价研究成果的基础上,提出了以下评价指标:

  1. 数据库规模和内容,包括索引组成、更新周期。
  2. 索引方法,包括自动索引、人工索引、用户登录。
  3. 检索功能,包括布尔操作(含嵌套) 、截词查找、字段查找、大小写有别、概念检索、词语加权、词语限定、特定字段限定、缺省值、中断退出、重复辨别、上下文关键词、查询集操作。
  4. 检索结果,包括相关性排序(单纯排序或注明排序分值)、显示内容(注释或摘要)、输出数量选择(限定或改变显示数量) 、显示格式选择。
  5. 用户界面,包括帮助文件、数据库和检索功能说明、查询举例。
  6. 查准率和响应时间。

不论采取哪种评价标准,用户在实际使用过程中最为关心的还是查准率、查全率和响应时间。

查全率和查准率

传统的衡量情报检索性能优劣的两个重要的计量指标是查全率和查准率。查全率是指检出的相关文献量和文献空间中所有相关文献量的比率,查准率是指检索出相关文献的数量和检索出的文献总量的比率。然而,这种真实的查全率和查准率在搜索引擎的评价中是很难实现的。因为没有任何一种搜索引擎可以包罗所有的网上信息资源。虽然目前数据库中网页数量最多的 Google 声称有超过 30 亿个网页,但是可以预见的是, 这个数字远远少于整个网络上的网页数量。因此,对于因特网信息检索来说,真实的查全率和查准率是很难计算的,甚至估算都很困难。

原理

搜索引擎

通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。

爬行和抓取

搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为爬虫(Spider)。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链,从这个网站爬到另一个网站,去跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库等待搜索。所以跟踪网页链接是搜索引擎爬虫(Spider)发现新网址的最基本的方法,所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。

建立索引

爬虫抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index)。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录,以便后面的处理。

搜索词处理

用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。处理完毕后将数据传入后端服务器,以便下一步操作。

排序处理

对搜索词处理后,后端的搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到前端页面。

网站(Web)搜索

网站搜索与搜索引擎工作原理类似,主要的三个功能模块:网页搜集、预处理、查询服务。

网页收集

在网站搜索中,网页搜集主要为两种方式:定期搜集,增量搜集。

  • 定量搜集是将Web上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S开始,沿着网页中的链接,按照先深、先宽或者某种别的策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入集合S。整个过程仍可以想象为一个蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)。
  • 另一种可能的方式是在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接基于这个集合。没搜到一个网页,如果它发生变化并含有新的URL,则将它们对应的网页也抓回来,并将这些新URL也放到集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删除。

预处理

  1. 关键词的提取

作为预处理阶段的一个基本任务就是提取出网页源文件的内容部分所含的关键词。对于中文来说,就是要根据一个词典E,用一个所谓的“切词软件”,从网页文字中切出E所含的词语来这样,一个网页主要就由一组词来近似代表了,要去掉诸如“的”,“在”等没有内容指示意义的词,称为“停用词”(stop word)一篇网页有效的词语数量大约在200个左右。

  • 重复或转载网页的消除

网页的重复率平均大约为4。

  • 链接分析

词频TF、文档频率DF之类的统计量能在一定程度上指示词语在一篇文档中的相对重要性。h1可能比h4的内容重要,还可以利用链接信息来提取关键词。

  • 网页重要程度的计算

被引用多的就是重要的,引用这个概念恰好可以通过HTML超链在网页之间体现得非常好,Google创立核心技术的PageRank就是这种思路的成功体现。

查询服务

  • 查询方式和匹配

根据查询的短语分词,然后按各词查询结果取交集。

  • 结果排序

词频越大则该文档排在越前面,文档频率越大,则该词用于文档排序的作用越小。另一个指标就是文档重要性PageRank。

  • 文档摘要

两个问题:

  1. 网页的写作通常不规范,文字比较随意,因此从语言理解的角度难以做好;
  2. 复杂的语言理解算法耗时太多,不适应搜索引擎要高效处理海量网页信息的需求。

智能技术

网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Internet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过URL引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、URL链接点验证与确认、监控与获取更新信息、站点镜像等。 机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:

  1. 数字列表项目机器人从起始URL列表中取出URL并从网上读取其指向的内容;
  2. 从每一个文档中提取某些信息(如关键字)并放入索引数据库中;
  3. 从文档中提取指向其他文档的URL,并加入到URL列表中;
  4. 重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);
  5. 给索引数据库加上检索接口,向网上用户发布或提供给用户检索。

搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Internet。 量贩式搜索引擎优化是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。

索引技术

索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。索引多采用Non—clustered方法,该技术和语言文字的理解有很大的关系,具体有如下几点:

  1. 存储语法库,和词汇库配合分出句子中的词汇;
  2. 存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
  3. 词汇宽,应可划分为不同的专业库,以便于处理专业文献;
  4. 对无法分词的句子,把每个字当作词来处理。

索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(inverted list),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。 不同的搜索引擎系统可能采用不尽相同的标引方法。例如:Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。

处理技术

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:

  1. 按频次排定次序,通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合乎常理的解决方案。
  2. 按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
  3. 二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。

由于搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。

种类

谷歌(Google)

Google搜索是由Google公司推出的一个互联网搜索引擎,它是互联网上最大、影响最广泛的搜索引擎。Google每日透过不同的服务,处理来自世界各地超过30亿次的查询。

除了搜索网页外,Google亦提供搜索图像、新闻组、新闻网页、地图、影片的服务。2005年6月,Google已存储超过80亿个网页,1亿3千万张图片,以及超过1亿的新闻组消息 - 总计大概10亿4千万个项目。它也缓存了编入索引中的绝大多数网页的内容。

因为Google的名声,“Google”一个事物做动词表示的是“在Google上搜索”。它还有引申义“在互联网上搜索”,甚至“(在实际环境中)搜索”的意思。Google官方通过律师信强烈反对这种滥用他们公司名字的习惯,因为它可能会导致Google变成一个通用商标名。

百度

百度搜索是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。 “百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处”,象征着百度对中文信息检索技术的执著追求。百度公司企业标志则是一个“熊掌”,来自于“猎人以熊掌来寻迹”的意象。

截至2018年5月,百度在Alexa的排名上位于第四,中国互联网公司排名第一,占全世界搜索引擎市场份额12.3%,居于第二位,仅次于谷歌。

360

360搜索属于全文搜索引擎。360搜索包括新闻、网页、问答、视频、图片、音乐、地图、百科、良医、购物、软件、手机等应用。

360综合搜索,属于元搜索引擎,是搜索引擎的一种,是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。而360搜索+,属于全文搜索引擎,是奇虎360公司开发的基于机器学习技术的第三代搜索引擎,具备“自学习、自进化”能力和发现用户最需要的搜索结果。

2015年1月6日消息,360总裁齐向东向全体员工发送邮件,宣布360搜索将正式推出独立品牌“好搜”,原域名可直接跳转至新域名。

2016年2月,360再次宣布,将“好搜搜索”重新更名为“360搜索”,域名也由“haosou.com”切换为更易输入的“so.com”,回归360母品牌,意味着360搜索将继续依托360母品牌的基础,在安全、可信赖等方面,继续形成差异化优势。

搜狗

搜狗搜索是中国领先的中文搜索引擎,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快信息获取速度,为用户创造价值。

搜狗搜索是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎。搜狗搜索是中国领先的中文搜索引擎,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快信息获取速度,为用户创造价值。

搜狗的其他搜索产品各有特色。音乐搜索小于2%的死链率,图片搜索独特的组图浏览功能,新闻搜索及时反映互联网热点事件的看热闹首页,地图搜索的全国无缝漫游功能,使得搜狗的搜索产品线极大地满足了用户的日常需求,体现了搜狗的研发。

必应(Bing)

必应是微软公司于2009年5月28日推出的全新搜索品牌,集成了搜索首页图片设计,崭新的搜索结果导航模式,创新的分类搜索和相关搜索用户体验模式,视频搜索结果无需点击直接预览播放,图片搜索结果无需翻页等功能。2013年10月,微软在中国启用全新明黄色必应搜索标志并去除Beta标识,这使必应成为继Windows、Office和Xbox后的微软品牌第四个重要产品线。2014年3月25日,微软更新了Bing Desktop(必应缤纷桌面)这款软件。

2014年10月,微软发布Android Wear应用,把必应带到手腕。2016年5月19日,搜狗与微软必应合作推出英文和学术搜索。2017年3月,微软小冰与必应搜索引擎整合。

雅虎(Yahoo)

雅虎是曾经的全球第一门户搜索网站,业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务。1999年9月,中国雅虎网站开通。2005年8月,中国雅虎由阿里巴巴集团全资收购。

中国雅虎开创性地将全球领先的互联网技术与中国本地运营相结合,成为中国互联网界位居前列的搜索引擎社区与资讯服务提供商。中国雅虎一直致力于以创新、人性、全面的网络应用,为亿万中文用户带来最大价值的生活体验,成为中国互联网的“生活引擎”。

2005年、2006年,中国雅虎分获由IT风云榜评出的“搜索引擎年度风云奖”和第五届互联网搜索大赛“搜索产品用户最高满意度奖”等殊荣。

有道词典搜索

有道是网易旗下利用大数据技术提供移动互联网应用的子公司。网易有道公司已推出有道词典、有道云笔记、惠惠网、有道推广等一系列产品。

网易有道以搜索产品和技术为起点,在大规模数据存储计算等领域具有深厚的技术积累,并在此基础上衍生出语言翻译应用与服务、个人云应用和电子商务导购服务等三个核心业务方向。

2019年05月,网易有道已经启动了赴美股IPO,消息称已有 2 家知名承销商与其洽谈合作;10月25日晚,网易有道在纽交所上市。

2019Q3网易有道净收入为3.5亿,同比增长98%。其中学习型产品和服务净收入2.3亿,同比增长142%。

头条搜索

头条搜素为字节跳动旗下的搜素引擎,于2020年2月28日开始内测。其slogan为:“头一条就是你想搜的”。

2019年8月1日,字节跳动通过“字节跳动招聘”公众号首次公开了布局搜索引擎的动作。文章提到,字节跳动已建立搜索部门,搜索团队正在全力打造出一个理想的搜索中台架构。而该搜索引擎是今日头条、抖音、西瓜、火山、懂车帝等多款App的“幕后支持者”。该项目已运作上万台机器。

2020 年2月28日,头条搜索独立 app 开始内测。

Ecosia

Ecosia是一个网页搜索引擎,成立于2009年,他们将至少80%的剩余所得公益捐献,目前正关注植树。Ecosia由B-labs认证为公益企业。

Ecosia表示会将80%的搜索广告利润捐献出来用于植树造林,对抗全球变暖和气候变化。经过估算,用户每搜索50次,就会产生足够的利润来种下一棵树。根据其官方数据显示,自2009年成立以来,Ecosia已经在全世界“最需要的地方”种植了8600万棵树,比如哥伦比亚、秘鲁、肯尼亚、印度等地。

Ecosia支持全财务透明。它发布了免费网页浏览器,叫做EcoBrowser(Chromium的改版)。Ecosia已被Chrome浏览器纳入默认搜索引擎选项。

DuckDuckGo

DuckDuckGo是一个互联网搜寻引擎,其总部位于美国宾州Valley Forge市。DuckDuckGo强调在传统搜寻引擎的基础上引入各大Web 2.0站点的内容。其办站哲学主张维护使用者的隐私权,并承诺不监控、不记录使用者的搜寻内容。

DuckDuckGo流量统计数据是公开的在2011年内,平均每日访问量达到200,000。其他数据来源,Competecom估计2011年三月的访问量大约是191,904。2011年4月13日, Alexa 显示DuckDuckGo前三个月的增长率达到了51%。 在TechCrunch上,DuckDuckGo被认为是Elevator Pitch Friday的一部分在 BOSSMashable 挑战赛中,DuckDuckGo进入了决赛圈。

2010年6月,盖布瑞·温伯格启动了DuckDuckGo社区网页让大众报告使用问题,讨论如何推广搜索引擎,寻求新功能以及讨论开源代码。

2011年10月 Union Square Ventures注资DuckDuckGo。 Union Square 合作伙伴 Brad Burnham 说,“我们注资DDG,是因为我们相信只有它有能力改变搜索引擎之间的竞争的依据,现在正是时候(it was time to do it)。“

2011年11月,Linux Mint 与 DuckDuckGo 签立了一份独家合约,DuckDuckGo 成为 Linux Mint 12 之默认搜寻引擎。

工作流程

搜索引擎的基本工作原理包括如下五个过程:

  1. 在互联网中发现、搜集网页信息;
  2. 对信息进行提取和组织建立索引库;
  3. 检索器根据用户输入的查询关键字,在索引库中快速检出文档;
  4. 进行文档与查询的相关度评价,对将要输出的结果进行排序;
  5. 将查询结果返回给用户。

组织结构

部门分工

人员分工

经营设计

需求分析

目标界定

总体结构设计

详细结构设计

参数设计

设计实施

原材料

主料

辅料

可选原料

设计和规划

位置与环境

投资与评估

规模与功能

风格与形式

成本

税费

金融成本

原材料成本

房租成本

能耗成本

人工成本

设备折旧

收益管理

消费曲线

时间分布

空间分布

目标群体

容量控制

风险控制

行业

国内市场

提示:更新图片时将图片名改成上述对应图片名,不要包含年份,选择“覆盖已存在的文件”即可,可免去重新插入图片的步骤,并减小服务器占用。

产量

消费量

国际市场

提示:更新图片时将图片名改成上述对应图片名,不要包含年份,选择“覆盖已存在的文件”即可,可免去重新插入图片的步骤,并减小服务器占用。

产量

消费量

主要公司

国内

百度 百度在线网络技术(北京)有限公司

360搜索 北京奇虎科技有限公司

搜狗搜索 北京搜狗科技发展有限公司

神马搜索 广东神马搜索科技有限公司

国外

Yahoo 【美】Verizon无线公司

Bing 【美】微软公司

Google 【美】谷歌公司

DuckDuckGo 【美】DuckDuckGo公司

Goo 【日】 日本电报电话公司

Rambler 【俄】漫步者网络公司

Yandex 【俄】Yandex公司

图片来源:https://bg.qianzhan.com/trends/detail/506/200212-f8c7fb7b.html

标准

这里存放条目相关的国家标准

文档

编辑成员
11 人

Ken418, 可乐菌, Neo_Woon, ???, Alan_Star, 7haoyu, 木又, black_white_tony, @关键字, 透明qbz, 等待明天

你需要登录发表评论。
回形针手册-icons