『壹』 中文搜索引擎的搜索引擎发展史
90年初当时万维网(World Wide Web)还未出现,为了查询散布在各个分散的主机中的文件,曾有过Archie, Gopher等搜索工具,随着互联网的迅速发展,基于HTTP访问的web技术的迅速普及,他们就不再能适应用户的需要。在1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线,它还支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据库查询。这就是我们说的早期的,目录导航系统,他们的缺点网站收录/更新都是要考人工维护,所以在信息量剧增的条件下,就不是非常受用了。
1994年7月,Lycos推出了基于robot的数据发现技术,并支持搜索结果相关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。
1995年,一种新的搜索引擎工具出现了——元搜索引擎,第一个元搜索引擎是华盛顿大学的学生开发的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理後提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理後再返回给用户。
1995年12月才登场亮相的AltaVista推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等), 同时AltaVista还支持搜索新闻群组(Newsgroups),搜索图片等具有划时代意义的功能。 同时期还有inktomi,HotBot等搜索引擎。
1997年8月Northernlight 公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。
1998年10月,Google诞生。它是目前最流行的搜索引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。
1999年5月,Fast(Alltheweb)公司发布了自己的搜索引擎AllTheWeb,它的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。它曾经是最流行的搜索引擎之一,後在2003年2月被Overture收购。
在中文搜索引擎领域,1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,曾一度有“出门找地图,上网找搜狐的”美誉。由于其人工分类提交的局限性,随着网络信息的暴增,逐渐被基于robot自动抓取智能分类的新一代信息技术取代。
台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序(PolyRankTM)核心技术,截止2002年6月,宣布累计抓取网页35亿,开始进入英文搜索领域。
北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务, 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
中文搜索由超链分析专利发明人、前Infoseek资深工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索,图片,Flash,音乐等多媒体信息的检索。并且在中文领域第一个开始使用ppc经营模式。
2002年开始进入搜索引擎市场的中搜是由慧聪国际主持开发的,是搜索领域的後起之秀。目前处于起步阶段,技术没有特别见长的优势。
『贰』 搜索引擎的产生和发展经历了哪几个阶段
第一个阶段是,分类目录的阶段。
分类目录可以称之为“网址导航”,hao123和Yahoo是这个阶段的代表。通过人工的收集和整理,把属于各个门类的高质量网站进行罗列,减少了用户筛选网站的复杂度,直接让用户进行访问。
这是一种没有技术含量但却在互联网发展早期非常好用的方案。
第二个阶段是,文本检索的阶段。
文本检索的阶段采用了许多经典的信息检索模型,如布尔模型、向量空间模型或概率模型,用来计算用户输入的查询词(Query)与网页文本内容的相关程度。
相比于第一个阶段的分类目录方法,文本检索阶段向前跨越了“一大步”,奠定了整个搜索引擎的发展大方向。
在效果上,这一阶段的解决方案仍然“差强人意”。
第三个阶段是,链接分析的阶段。
这一阶段的搜索引擎在文本检索的基础上,深入挖掘和利用了网页中链接所隐含的信息。用现在的眼光看来,网页之间的连接关系代表了一种“推荐关系”,通过对连接的分析可以得到重要的网站。
这一阶段的典型代表就是Google所提出的PageRank链接分析技术,通过连接分析对网页重要性进行筛选,再结合文本检索阶段中的相关性,使得搜索质量有了质的飞跃。
第四个阶段是,以用户为中心的阶段。
“以用户为中心”并不是一句空话,而是最近这些年各大互联网公司一直在实践的方向。
随着搜索引擎技术的完善,一些问题逐渐浮出了水面。
『叁』 搜索引擎的产生和发展经历了哪几个阶段试简述各阶段的特点。.
第一个阶段是,分类目录的阶段。
分类目录可以称之为“网址导航”,hao123和Yahoo是这个阶段的代表。通过人工的收集和整理,把属于各个门类的高质量网站进行罗列,减少了用户筛选网站的复杂度,直接让用户进行访问。
这是一种没有技术含量但却在互联网发展早期非常好用的方案。
第二个阶段是,文本检索的阶段。
文本检索的阶段采用了许多经典的信息检索模型,如布尔模型、向量空间模型或概率模型,用来计算用户输入的查询词(Query)与网页文本内容的相关程度。
相比于第一个阶段的分类目录方法,文本检索阶段向前跨越了“一大步”,奠定了整个搜索引擎的发展大方向。
在效果上,这一阶段的解决方案仍然“差强人意”。
第三个阶段是,链接分析的阶段。
这一阶段的搜索引擎在文本检索的基础上,深入挖掘和利用了网页中链接所隐含的信息。用现在的眼光看来,网页之间的链接关系代表了一种“推荐关系”,通过对链接的分析可以得到重要的网站。
这一阶段的典型代表就是Google所提出的PageRank链接分析技术,通过链接分析对网页重要性进行筛选,再结合文本检索阶段中的相关性,使得搜索质量有了质的飞跃。
第四个阶段是,以用户为中心的阶段。
“以用户为中心”并不是一句空话,而是最近这些年各大互联网公司一直在实践的方向。
随着搜索引擎技术的完善,一些问题逐渐浮出了水面。比如,同样一个查询词“苹果”,在果粉和果农心中的目的显然不同;再比如,同样一个用户的查询词,也会因为搜索行为的时间和地点的不同而产生变化。
为了提供更好的搜索体验和搜索质量,理解用户带来的信息至关重要。在这个阶段,机器学习技术不断的与搜索引擎技术相融合,并大大改善了搜索质量和搜索体验。
『肆』 搜索引擎的历史与发展
发 展(1):世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模版。
发 展(权2):Excite for Web Servers.
发 展(3):Yahoo!。
发 展(4):元搜索引擎(Meta Search Engine)。
发 展(5):智能检索的产生
发 展(6):个性化定制
发 展(7):网格技术
『伍』 搜索引擎的发展史
【第一代:分类目录时代(人工时代)】
在自己的搜索引擎首页设置导航网站作为自己的首页,这个网址就是搜索引擎第一代的代表。可以从这个导航网站里面看到,里面几乎都是一些分类网址,几乎是所有在互联网上的,这个网站里面都一应俱全,从这里可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一代。
【第二代:文本检索时代(海量自动获取与排序清单)】
到了这一代,搜索引擎查询信息的方法则是通过用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返回给用户。采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。这就是搜索引擎第二代。
【第三代:整合分析时代(立体搜索与结果整合)】
这一代的搜索引擎所使用的方法大概是和今天的网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。这种模式的首先使用者是google,google不仅为首次使用并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来,学术界以此成就为基础,提出了更多的改进的链接分析算法。大多数的主流搜索引擎都在使用分析链接技术算法。这就是第三代搜索引擎
将用户输入关键字,反馈回来的海量信息,智能整合成一个门户网站式的界面,让用户感觉每个关键字,都是一个完整的信息世界。而不是第二代一样返回一个清单,整个清单夹杂着大量用户不关心、且没有分类的链接。
第三代搜索引擎的典型特征就是:智慧整合第二代返回的信息为立体的界面。让用户能轻易地一眼进入到最相关的分类区域去获取信息。
【第四代:用户中心时代(以移动互联网为标志的个人需求精准搜索)】
第四代,也就是大家所用的搜索引擎技术也是互联网上面用的最普遍的,主要是以用户为中心。当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。例如用户输入的是“苹果”,那么作为一个想要购买iPhone的用户和一个果农来说,那么要求就是大大的不一样。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同的所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。这一代搜索引擎主要是以用户为中心。这就是第四代搜索引擎。
移动设备的使用者,即使不向移动搜索互联网授权任何特征信息,移动搜索互联网仍然可以通过移动设备使用者在的搜索时的大量特征,比如上网的时间习惯,操作习惯,内容归类去逐渐勾勒出这人使用者的特征信息,这种“推测式”算法的可能性也是由于移动设备具有唯一性、随身性而产生的。这好比是警察可能通过“嫌疑人”的行为习惯,去推测出他的“作案动机”与“体貌特征”一样。那么,这些使用者的蛛丝马迹,都是未来移动互联网搜索引擎进行“商业数据挖掘”的巨大宝藏。
移动互联网搜索的必然使命就是:提供精准到个人的搜索。可以说前三代搜索引擎,都是基于PC互联网的搜索,而精准到个人需求的移动互联网搜索,为“第四代搜索引擎”,那么,最有可能实现这个第四代搜索引擎的人才,可能不来自于网络,甚至不来自于GOOGLE,而很有可能来自于亚马逊、淘宝这些掌握了大量个人信息的商业巨头,或者来自于跨界研究行为心理学、消费心理学、社会心理学等背景的IT研究机构或IT创业团队,因为这些公司或机构,对人们的行为习惯背后的“动机”与“特征”更加了如指掌。
【第五代:生活生态圈搜索时代(以物联网为标志的实体搜索)】
第五代搜索引擎应该是基于物联网的搜索,物联网搜索拥有更广阔的搜索空间,现在能预测到物联网一个最典型的应用就是:找东西。比如远程看管小孩、老人,或搜索走失小孩,包括精确到厘米的GPS定位,比如要去一个陌生的地方,找厕所,找窗口,甚至找警察。同时,不仅仅是找东西,甚至还有可能被找,比如泊车后超过某个时间点,让车主动呼叫,饭煮好了,电饭堡呼叫,提前打开的空调使用室温保持到预定温度后,空调呼叫等等。
『陆』 搜索引擎技术发展史
搜索引擎的发展历史
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
1994年7月,卡内基•梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Rounp)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。
1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Bai和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了网络(Bai)公司。2001年8月发布Bai.com搜索引擎Beta版(此前Bai只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Bai搜索引擎,专注于中文搜索。Bai搜索引擎的其它特色包括:网络快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、网络等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
『柒』 搜索引擎发展的历史包括哪几个时期,分别有什么不同特点
第一代
分类目录时代
不知道大家时候在自己的搜索引擎首页是否有设置过导航网站这个网址作为自己的首页呢?其实这个网址就是搜索引擎第一代的代表。我们可以从这个导航网站这个网站里面看到,里面几乎都是一些分类网址,几乎在互联网上的,这个网站里面都一应俱全,从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一代。
第二代
文本检索时代
到了这一代,搜索引擎查询信息的方法则是通过用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返回给用户。采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。这就是搜索引擎第二代。
第三代
整合分析时代
这一代的搜索引擎所使用的方法大概是和我们今天的网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。这种模式的首先使用者是google,google不仅为首次使用并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来,学术界以此成就为基础,提出了更多的改进的链接分析算法。大多数的主流搜索引擎都在使用分析链接技术算法。这就是第三代搜索引擎
将用户输入关键字,反馈回来的海量信息,智能整合成一个门户网站式的界面,让用户感觉每个关键字,都是一个完整的信息世界。而不是第二代一样返回一个清单,整个清单夹杂着大量用户不关心、且没有分类的链接。第三代搜索引擎的典型特征就是:智慧整合第二代返回的信息为立体的界面。让用户能轻易地一眼进入到最相关的分类区域去获取信息。
第四代
编辑
用户中心时代
第四代,也就是我们所用的搜索引擎技术也是互联网上面用的最普遍的。主要是以用户为中心。当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。例如用户输入的是“苹果”,那么作为一个想要购买iPhone的用户和一个果农来说,那么要求就是大大的不一样。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同的所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。这一代搜索引擎主要是以用户为中心。这就是第四代搜索引擎。
移动设备的使用者,即使不向移动搜索互联网授权任何特征信息,移动搜索互联网仍然可以通过移动设备使用者在的搜索时的大量特征,比如上网的时间习惯,操作习惯,内容归类去逐渐勾勒出这人使用者的特征信息,这种“推测式”算法的可能性也是由于移动设备具有唯一性、随身性而产生的。这好比是警察可能通过“嫌疑人”的行为习惯,去推测出他的“作案动机”与“体貌特征”一样。那么,这些使用者的蛛丝马迹,都是未来移动互联网搜索引擎进行“商业数据挖掘”的巨大宝藏。
移动互联网搜索的必然使命,就是:提供精准到个人的搜索。可以说前三代搜索引擎,都是基于PC互联网的搜索,而精准到个人需求的移动互联网搜索,为“第四代搜索引擎”,那么,最有可能实现这个第四代搜索引擎的人才,可能不来自于网络,甚至不来自于GOOGLE,而很有可能来自于亚马逊、淘宝这些掌握了大量个人信息的商业巨头,或者来自于跨界研究行为心理学、消费心理学、社会心理学等背景的IT研究机构或IT创业团队,因为这些公司或机构,对人们的行为习惯背后的“动机”与“特征”更加了如指掌。
第五代
生活生态圈
第五代搜索引擎应该是基于物联网的搜索,物联网搜索拥有更广阔的搜索空间,能预测到物联网一个最典型的应用就是:找东西!比如远程看管小孩、老人,或搜索走失小孩,包括精确到厘米的GPS定位,比如你去一个陌生的地方,找厕所,找窗口,甚至找警察。同时,不仅仅是你找东西,甚至还有可能东西找你,比如泊车后超过某个时间点,让车主动呼叫你,饭煮好了,电饭堡呼叫你,提前打开的空调使用室温保持到预定温度后,空调呼叫你等等。
总结
基于第四代搜索引擎未能解决的问题,很多主流的搜索引擎都做了许多的技术尝试,比如像根据用户所输入的查询请求和用户所处在的地理位置来判断用户的真正查询请求,又或者根据用户输入的查询信息和用户之前访问的历史记录相结合来判断用户的真正查询请求,但是在效果上却是微乎其微。这个问题何时才能突破,让我们拭目以待吧。
『捌』 谁知道互联网搜索引擎的发展历史
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎 最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的网络也属于这一类(注),搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。
『玖』 搜索引擎发展历程谁知道具体的
1990年:第一个互联网上的搜索引擎Archie出现,用于搜索FTP服务器上的文件。
1993年:6月,第一个Web搜索引擎World Wide Web Wandere出现,它只用来收集网址。10月,第二个Web搜索引擎ALIWEB出现。开始索引标题标签等信息。
1994年:1月,早起最重要的搜索引擎之一Infoseek创立。(网络创始人李彦宏就是其核心工程师之一)
4月,雅虎Yahoo!创立。同月,第一个全文搜索引擎(索引文件全部内容)WebCrawler推出。
6月,Lycos创立。迅速成为最受欢迎的搜索引擎之一。
1995年:4月,雅虎Yahoo!正式成立。
12月,Infoseek成为网景浏览器的默认搜索引擎。同月,Alta Vista创立,迅速成为搜索引擎发展中最受欢迎的,堪称当时的谷歌Glloge。
1996年:4月,雅虎Yahoo!上市。
1997年:4月,Ask Jeeves上线,唯一一个至今仍真实存在并有一定市场份额的早起搜索引擎。
1998年:9月,谷歌Google正式成立。
1999年:6月,曾经流行一时的搜索引擎Infoseek消失。
2000年:1月18日:网络成立。
7月,雅虎Yahoo!使用谷歌Google搜索数据。
2001年:10月,网络作为搜索引擎正式上线。
2002年:3月,谷歌Google Adwords 推出PPC形式,也就是按点击付费。
2003年:7月,雅虎Yahoo!将除了谷歌Google之外的几乎所有主流搜索技术收归旗下。2004年:8月,谷歌Google上市。
2005年:8月,网络上市。
2006年:9月,MSN网络品牌全部改为Live、并做了大量推广,Google仍然占最大地位。
2007年:3月,谷歌Google开始提供类似网站联盟的按转化付费的广告形式。
2009年:6月,微软Live Search 改名为必应(Bing)
7月29,雅虎Yahoo!被自己亲手培养的Google谷歌彻底打败在搜索引擎战场。
2010年:8月,Yahoo!雅虎开始使用必应Bing搜索数据。
2011年:2月,Google谷歌推出Panda更新,旨在减少搜索结果中低质量页面。对seo优化业绩影响深远。
2010年8月,NetMarketShare 统计数据,全球搜索引擎市场份额中谷歌Google占据�.73,占世界绝对领先地位,网络由于中国搜索用户数量庞大,搜索量排在第三位。但是国外使用网络者很少。
『拾』 请讲一下搜索引擎的历史
搜索引擎的发展历史
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Rounp)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。
1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Bai和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了网络(Bai)公司。2001年8月发布Bai.com搜索引擎Beta版(此前Bai只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Bai搜索引擎,专注于中文搜索。Bai搜索引擎的其它特色包括:网络快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、网络等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。
2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。