木公的互联网观察

失败的作品——其价值便是“作为成功的借鉴!”从失败中崛起……

从百度的凌乱谈阿里的冬天

每个月底,百度会有次波动,动荡过程不一!有增有减,本次的现象是众多网站出现10万+信息,已经持续第五天!

出现这类问题今年不是第一回,上一次或许是地震的影响,较多网站出现收录量减半的问题,并持续很长时间!

作为中国搜索引擎市场占有率最高的搜索引擎公司,百度的作为令人假想很多,从硬盘储存到数字模似,或许是技术的新应用,但也难说是次缩减成本的操作!毕竟大量的服务器外置,还是需要一定的费用进行维护!

阿里巴巴最新财报显示付费用户增速继续大幅下降,阿里面向的直接客户为各中小型企业,通过为该企业创造效果机会实施会员销售,总体意义上说会员销售一直是阿里收入来源的重要组成部分,而如令所述的“冬天”,百度的影响… Read more…

电子商务中企业在找什么?

      传统企业因宣传局限前期的产品销售,区域招商,品牌推广都受到严重限制,在网络普及后!这些大部分得到解决!然而企业在这些都得到满足之后!他们还需要什么?

1\产品销售;2\品牌推广;3\企业文化;4\销售口碑; 5\产品形象;6\市场拓展

    一\产品销售是不变的话题,在有足够的利润比支持下企业的会选择收费服务,100万抽取10万能接受;对平台的考验是拥有宏大的真实信息流!阿里巴巴做到这点,所以成功! Read more…

Google去年调整搜索算法450次

Google对于公司的内部运作一向口风很紧,但是也确有少数消息可能会被无意中透露出来。Google负责搜索品质监督的副总裁Udi Manber近日在接受采访时无意透露:Google在去年一年时间内调节了450次搜索引擎算法。

据他表示:他们的工作就是根据用户搜索条件调节算法以寻找最匹配的网页,该公司在上周增加了“多样化”搜索结果,使搜索的结果覆盖的网页更广,以解决有含糊之处的搜索词。

至于业界流行的搜索引擎优化(SEO),Manber表示,他们至少需要做到一个基本要素,才能保证工作更轻松:“我希望人们应考虑一下如何才能让其他人找到他们,并且在自己的页面放置正确的关键词”

他还表示,Google从来不会手动调整搜索结果。

“如何我们发现在一个特点的搜索结果,结果4应该是结果1的位置,那么我们实际上没有能力去改变它”,“但是我们会找出它的弱点,并针对结果修改算法,并找到一个全面的解决方法”

PS:搜索引擎为众多站长创造利润,站长也推动搜索引擎的不断发展!

国内最早推出中文搜索引擎的是搜狐

        2000年开始,各大搜索引擎纷纷推出了搜索收费服务。2001年6月28日,国内最早推出中文搜索引擎的搜狐率先推出商业网站登录收费服务,2001年9月中旬,新浪紧随其后推出了新浪搜索网站推广增值服务,接着百度公司也推出了搜索竞价排名服务。  分析这三家搜索引擎的收费模式不难看出,中文搜索引擎的收费服务可以分成两种模式,一是以搜狐和新浪为代表的商业网站推广服务,二是以百度为代表的搜索竞价排名服务。

  商业网站推广服务就是在遵循搜索引擎信息的收集、分类、编辑原则的前提下,交费的网站可以排在同类网站的前面,在同类网站中如果有多家网站交费,按照时间的先后顺序排列。这样会不会影响搜索引擎搜索结果的质量呢?就这个问题搜狐搜索引擎负责人介绍说,他们在推出这项服务前,进行了充分的调研工作,搜狐开发的专家们也多次反复讨论认证,最后认为如果在遵循一定原则的基础上,网站收费不仅不会影响搜索引擎的质量,在某种程度上还会促进搜索引擎的发展。理由如下:

  1、交费网站用户一定是比较重视网站,网站的质量相对会比较高,出现死链接等的问题也会大大减少,排在同类网站的前面正好符合“好网站先提供给网民”的原则。

  2、许多中小企业希望在网上开展电子商务,但是做好网站后推广的费用太高,中小企业往往负担不起。商业网站推广服务能花最少的钱达到最有效的推广。

  3、搜索引擎产品的特性决定了商业网站推广比起别的推广形式来说更有优势。因为使用搜索引擎的人都是希望找到自己关心的信息,推广的商业网站也希望将自己的信息传递给对自己感兴趣的人,搜索用户的需求和网站推广的需求在商业网站推广服务这个平台上得到了很好的结合。

  4、中小企业花最少的钱得到了有效的推广,网民找到了自己关心的信息,搜索引擎公司通过自己的服务获得了利润,商业网站推广服务可以说是一个“三赢”方案。

  与商业网站推广服务不同,搜索竞价排名服务就是用户可以竞价购买关键词,同一个关键词搜索结果页面上出价高的网站排在前面,按点击收费。这种收费模式使得用户在交费上得到了更大的灵活性,而且不点击不收费,对网站推广用户也有很大的吸引力。但是这种由搜索引擎技术提供商提供的竞价排名有一个致命的弱点,那就是搜索引擎技术提供商并没有自己的搜索引擎网站平台。比如用户要想用百度的搜索引擎就必须到搜狐或是新浪等网上去搜索,从某种意义上来讲百度的竞价排名服务需要依靠搜狐、新浪等著名搜索引擎的品牌优势带来网民的点击,如果一旦搜狐、新浪等改用其他搜索引擎技术公司提供的网页搜索引擎,百度的搜索引擎也就没有用户使用了。

  由于百度的竞价排名服务在一定程度上影响了搜索结果的质量,再加上Google等国外优秀搜索引擎进军中文搜索引擎市场,各门户网站正在考虑更换网页搜索引擎的提供商。如果百度为了竞价排名而失去了作为中文网页搜索引擎技术提供商的地位,可能会得不偿失。

  对于需要推广的网站来说,选择哪种推广模式更加实惠呢?首先分析价格,以百度和搜狐为例,百度搜索竞价排名的起点价格为每个点击0.10元;搜狐商业网站登录的费用为2500元/年,每个推广型网站日平均点击率为200,一年用365天计算,平均每个点击仅为0.035元。其次考虑推广型网站获得的优先权,百度给搜狐新浪等搜索引擎提供的网页搜索引擎只是这些搜索引擎的一个组成部分,搜狐和新浪搜索引擎的缺省默认值是自己开发的网站搜索引擎,只有在网站搜索找不到结果时才会用百度提供的网页搜索结果作为补充,所以选择搜狐和新浪商业网站推广服务的网站比选择百度竞价服务的网站能够更加优先的出现在搜索用户的面前。最后,搜索竞价排名服务是按点击收费,这样就有可能出现恶意点击。

  搜索引擎收费是大势所趋,推出什么样的收费模式才能得到发展还需要市场的检验。
作者:西瓜大姐(2002年1月,原载中文搜索引擎指南)

PS:如今百度起价已经是0.3元,走低位的搜狐依然坚持他的运作方式(细节也不清楚,好久没走搜狐渠道了),然而以一句”不知道,百度一下”,百度占居了中国搜索引擎市场60%以上份额!高度集中的用户群体,他的加价能被市场接受.随2008年CN域名继续走低1元出售,大幅度的降低网站建设成本,百度对CN域名的降权也合乎情理.在金钱与站长面对,果断的选择前者!

搜索引擎的基本原理

      搜索引擎虽然表现为各种不同的形式,但其最根本是由信息搜集系统、索引数据库和查询接口三部分组成。下面就分别详细描述不同形式搜索引擎的组成:  

        1)目录导航搜索引擎的信息搜集系统、索引数据库和查询接口

  目录导航式搜索引擎的信息搜集系统主要是由人工来完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新的网站,给每个网站一个标题和大概的描述,将其放入相应的类目体系中。在页面上表现为每个类目路径下排列着相关的网站,所以也叫目录导航。

  目录导航式搜索引擎的索引数据库存入每个网站的标题、描述、类目、超文本链接(URL)组成倒排文档。 目录导航式搜索引擎提供两种查询接口形式,一种是在网页上用户可以直接点击树状目录,一层一层的点击查看下去,直到找到用户需求的相关类目下的网站信息。另一种查寻接口就是关键词检索,用户直接在搜索框中输入所需信息的关键词,服务器接受命令后就会去索引数据库中匹配关键词,返回查询结果。因此可以看到,目录导航实现的原理比较简单,主要是编制目录导航页面和设计简单的检索功能。

  2) 网页搜索引擎的信息搜集系统、索引数据库和查询接口

  网页搜索引擎完全体现了现代先进的网络技术。

  网页搜索引擎的信息搜集系统是通过网络机器人(robot)或是网络蜘蛛(spider)来自动完成的,不需要任何的人工处理。网络机器人(robot)或是网络蜘蛛(spider)从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,然后用机器人或蜘蛛周游这些新的检索点,标引这些检索点上的新文档,加入索引数据库组成倒排文档。因此如何从原始文档中抽取出全部有用信息,并将抽取的信息记录到索引库中是关键。

  网页搜索引擎的的索引数据库建立的策略很大程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。索引库的具体结构在下文中会有详细的描述。

  网页搜索引擎一般只提供关键词检索这一种检索接口形式。为了方便用户的检索,网页检索的检索接口除了要提供对单个字符串进行检索的基本检索功能外,还要支持多种复杂的高级检索功能,如多个字符串组合检索、模糊检索等。网页搜索引擎的检索接口还担负着检索结果相关性排序等关键技术的实现。

  当然,也有的搜索引擎开发公司利用网络机器人(robot)或是网络蜘蛛(spider)抓取的网页用计算机自动分类建立目录导航系统,象香港中文大学开发的悠游网(http://www.goyoyo.com)就是这种类型。

  3) 随着网络的发展,出现了许多多媒体搜索引擎,比如图片搜索引擎、MP3音乐搜索引擎等。

  1999年,许多经营图库的公司逐渐将其图库上网,并使得内容可以被搜索利用。图像搜索技术可以分为基于文字的搜索与基于内容的搜索。基于文字的搜索是利用图像的文字描述寻找需要的图像;基于内容的检索是分析图像中颜色、纹理分布等特征,寻找相关的图像。有一种做法是用户首先点选画面中随机产生的图片中比较符合需求的图片,找到与用户选择较为相似的图片,用户再从中点选更为接近要求的图片,经过数次互动后,用户可以愈来愈接近想查找的图片。

作者:西瓜大姐(Sohu北京)2002年;来处中文搜索引擎指南

       PS:西瓜大姐,前些日子某位点石VIP会员推荐的网站上看到的,很难想像2002就有人能将这些概念描述得如此详细, Blank是98年才接触互联网,可以说当时那笨重的电脑,大多用于游戏,上网是种奢侈,偶尔的也是帮父辈关照下网上的生意.或许正是这位西瓜大姐为百度这类中国搜索引擎巨头指明了方向,文中第三条”随着网络的发展,出现了许多多媒体搜索引擎,比如图片搜索引擎、MP3音乐搜索引擎等”,2008的的今天,MP3搜索便是百度的特色,或许也正是多媒体搜索预言而造就国际巨头Google收购youtube一重要原因,图片搜索引擎的精准化使得百度入驻日本而成为笑话(百度日本).

搜索引擎的第三定律

搜索引擎走到今天,已经是一个结束过去,开辟未来的时候了。为了说清楚我所讲的第三定律,我们先来回顾一下第一和第二定律。

…………………………………………………………………………. 

 ■ 第一定律 相关性定律

 听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有叫全文检索的。

 那时的相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面) 。早期的搜索引擎结果排序都是基于本文的第一定律的,如Infoseek,Excite,Lycos等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。

 词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,可是按照搜索引擎的第一定律,对这两个网页的排序应该是一样的。为了能够派在某些检索结果的前几位,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言。这种情况到了 1996年开始有了改变。

………………………………………………………………………….

 ■ 第二定律 人气质量定律

 1996年4月,我到赌城拉斯维加斯开一个有关信息检索方面的学术会议,会议的内容就象拉斯维加斯的天气一样,照例比较枯燥乏味。但远离公司的我,却难得有一个静下心来认真思考问题的机会。就在听一个毫不相干的论文演讲的时候,我突然把科学引文索引的机制跟Web上的超级链接联系起来了 - 感谢北大,她在我上大三的时候就教授了我科学引文索引的机制,美国恐怕没有一所大学会在你本科的时候教这玩艺儿。

 科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。在加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析。

 我意识到这是一个突破性的东西,回去以后就很快总结了思路,于96年6月申请了这一方面的美国专利。1999年 7月6号,美国专利和商标局批准了专利号为5,920,859的,以我为唯一发明人的专利。大约在96年底,斯坦福大学计算机系的两位研究生也想到了同样的解决方法,他们后来创立了一个叫Google的搜索引擎,Google的网站上至今仍然说他们的这项技术是Patent-pending (专利申请中) ,不知道美国专利局是不是还会再批这样的专利。Anyway, 超链分析的方法98年以后逐渐被各大搜索引擎所接受,由于链接是网络内容的一个根本特性,这时候的搜索引擎才开始真正利用网络时代的检索技术。

 世事难料,2000年起网络泡沫迅速破灭,各大搜索引擎要么遭人收购,要么推迟上市,所有使用人气质量定律的搜索引擎公司都未能幸免。那么,搜索引擎的出路到底在哪儿?

………………………………………………………………………….

 ■ 第三定律 自信心定律

 人气质量定律解决的还是一个技术层面的问题,然而搜索引擎从诞生的那一天起,从来就不是一个纯技术现像,它融合了技术,文化,市场等各个层面的因素。解决搜索引擎公司的生存和发展问题需要搜索引擎的第三定律–自信心定律。

 1998年的时候,没有太多的人拿一家远在硅谷500英里以外,刚刚成立的,叫作GoTo.com(现已更名为Overture)的公司当回事儿。它不过是买了一个搜索引擎的技术服务,然后再向那些网站的拥有者们拍卖他们网站在GoTo检索结果中的排名,谁付的钱多,谁的网站就排在前面,而且付费是根据网民点击该网站的情况来计算的,仅仅在搜索结果中出现并不需要付费。这就是自信心定律的最早实践者!根据这一定律,搜索结果的相关性排序,除了词频统计和超链分析之外,更注重的是竞价拍卖。谁对自己的网站有信心,谁就排在前面。有信心的表现就是愿意为这个排名付钱。需要声明的是,自信心定律也是我自己给这一模式起的名字,以前的文献中并没有人这样总结过。

 今天,在网络业一片萧条,那斯达克风声鹤唳的时候,GoTo却如日中天,市值高达13亿美金,收入高达雅虎总收入的35%。反观门户网站,有哪一个能从它们的搜索引擎服务中赚出总收入的三分之一呢?究其原因,就是因为GoTo最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM来收费的,而CPM是从传统广告业借鉴过来的,没有考虑网络媒体即时性,交互性,易竞价的特点,而竞价排名,点击收费则是为网站拥有者直接提供销售线索,而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面,开创了真正属于互联网的收费模式。

 在中国,百度一直致力于推动搜索引擎市场的培植和发展,现在,我们联合了各大门户网站的搜索引擎,一起通过百度的竞价排名系统来实践搜索引擎的第三定律,为数十万网站的拥有者提供一个展示自信心,吸引潜在客户,发现销售线索的平台。

,