木公的互联网观察

失败的作品——其价值便是“作为成功的借鉴!”从失败中崛起……

搜索引擎的基本原理

      搜索引擎虽然表现为各种不同的形式,但其最根本是由信息搜集系统、索引数据库和查询接口三部分组成。下面就分别详细描述不同形式搜索引擎的组成:  

        1)目录导航搜索引擎的信息搜集系统、索引数据库和查询接口

  目录导航式搜索引擎的信息搜集系统主要是由人工来完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新的网站,给每个网站一个标题和大概的描述,将其放入相应的类目体系中。在页面上表现为每个类目路径下排列着相关的网站,所以也叫目录导航。

  目录导航式搜索引擎的索引数据库存入每个网站的标题、描述、类目、超文本链接(URL)组成倒排文档。 目录导航式搜索引擎提供两种查询接口形式,一种是在网页上用户可以直接点击树状目录,一层一层的点击查看下去,直到找到用户需求的相关类目下的网站信息。另一种查寻接口就是关键词检索,用户直接在搜索框中输入所需信息的关键词,服务器接受命令后就会去索引数据库中匹配关键词,返回查询结果。因此可以看到,目录导航实现的原理比较简单,主要是编制目录导航页面和设计简单的检索功能。

  2) 网页搜索引擎的信息搜集系统、索引数据库和查询接口

  网页搜索引擎完全体现了现代先进的网络技术。

  网页搜索引擎的信息搜集系统是通过网络机器人(robot)或是网络蜘蛛(spider)来自动完成的,不需要任何的人工处理。网络机器人(robot)或是网络蜘蛛(spider)从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,然后用机器人或蜘蛛周游这些新的检索点,标引这些检索点上的新文档,加入索引数据库组成倒排文档。因此如何从原始文档中抽取出全部有用信息,并将抽取的信息记录到索引库中是关键。

  网页搜索引擎的的索引数据库建立的策略很大程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。索引库的具体结构在下文中会有详细的描述。

  网页搜索引擎一般只提供关键词检索这一种检索接口形式。为了方便用户的检索,网页检索的检索接口除了要提供对单个字符串进行检索的基本检索功能外,还要支持多种复杂的高级检索功能,如多个字符串组合检索、模糊检索等。网页搜索引擎的检索接口还担负着检索结果相关性排序等关键技术的实现。

  当然,也有的搜索引擎开发公司利用网络机器人(robot)或是网络蜘蛛(spider)抓取的网页用计算机自动分类建立目录导航系统,象香港中文大学开发的悠游网(http://www.goyoyo.com)就是这种类型。

  3) 随着网络的发展,出现了许多多媒体搜索引擎,比如图片搜索引擎、MP3音乐搜索引擎等。

  1999年,许多经营图库的公司逐渐将其图库上网,并使得内容可以被搜索利用。图像搜索技术可以分为基于文字的搜索与基于内容的搜索。基于文字的搜索是利用图像的文字描述寻找需要的图像;基于内容的检索是分析图像中颜色、纹理分布等特征,寻找相关的图像。有一种做法是用户首先点选画面中随机产生的图片中比较符合需求的图片,找到与用户选择较为相似的图片,用户再从中点选更为接近要求的图片,经过数次互动后,用户可以愈来愈接近想查找的图片。

作者:西瓜大姐(Sohu北京)2002年;来处中文搜索引擎指南

       PS:西瓜大姐,前些日子某位点石VIP会员推荐的网站上看到的,很难想像2002就有人能将这些概念描述得如此详细, Blank是98年才接触互联网,可以说当时那笨重的电脑,大多用于游戏,上网是种奢侈,偶尔的也是帮父辈关照下网上的生意.或许正是这位西瓜大姐为百度这类中国搜索引擎巨头指明了方向,文中第三条”随着网络的发展,出现了许多多媒体搜索引擎,比如图片搜索引擎、MP3音乐搜索引擎等”,2008的的今天,MP3搜索便是百度的特色,或许也正是多媒体搜索预言而造就国际巨头Google收购youtube一重要原因,图片搜索引擎的精准化使得百度入驻日本而成为笑话(百度日本).

Google robots REP meta 标签

原文:来自谷歌中国Blog

新增图片过滤,假设你负责域名 www.example.com,你希望搜索引擎索引你网站的除/ images 文件夹之外的一切内容。您还想确保你的网站地图被搜索引擎知道,那么你可以使用以下内容作为你的 robots.txt 文件:

disallow images

user-agent: *
Disallow:

sitemap: http://www.example.com/sitemap.xml

及面对集团企业专向制作的”unavailable_after 元标签“若你的网站有一个临时性的新闻故事,限时公司促销,或一个宣传页,你可以对特定页面指定确切的日期和时间,来阻止被抓取和索引.你可以这样操作!

假设你的一个促销活动有效期截至 2007 年年底。在 www.example.com/2007promotion.html 的源码开始,你可以使用以下行:

<META NAME=”GOOGLEBOT”
CONTENT=”unavailable_after: 31-Dec-2007 23:59:59 EST”>

另一个令人振奋的消息是新的 X-Robots-Tag 指令。它增加了机器人排除协议(REP)META 标签,该标签为非 HTML 网页提供支持!你终于可以控制对你的录像,电子表格,及其他索引文件类型的索引,就像控制对 HTML 页面的索引一样。还是上面的例子,比方说你的宣传页面是 PDF 格式。在文件 www.example.com/2007 promotion.pdf 中,你可以增加以下行:

X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST

PS:谷歌的功能确实人性化,也是开辟新的增值渠道及增长用户粘性的好方法!

,