博客首页|TW首页| 同事录|业界社区
2006-05-25

去年底梦高楼说SEO可以提升网站流量,我开始关注我当时负责的博客频道被google收录情况,刚上线时被google收录770页,然后慢慢上走了一点,上到八百多页之后,不升反降,最低降到605页,经过检查,发现google对从首页比较难访问过去的页面释放很快,而oblog这样的博客系统,如果没有编制用户名索引页,而只是根据更新时间倒序索引的话,那么,几天没更新的博客网页就很难从频道首页访问过去了,人力访问不过去,google的爬虫也爬不过去,而google对已收录的网页,如果在后面的超链分析中找不到的话,是会作为过期网页释放掉的(关于超链分析算法,见《怎样通过google 提高网站流量》一文)。需要注意的是,并不是从首页能点击过去就能被收录,而是说需要符合google超链分析算法中的条件。有人说层多了google就懒得收了,这话让我笑到肠子打结,哈哈,机器还有懒不懒的问题么,是按与受欢迎程度高网页的联结程度来判断的,又不是从网站首页开始计算的(至于受欢迎程度算法,也见前面说的那篇文章了)。
针对网页过期问题,我对博客系统加了用户名索引页,这样,网站结构扁平化。在加用户名索引页之后,被google收录页数一路飙升,一个月里从605页上升至20万页(现在到50万左右了)。搜索引擎带来的到访量三个月里上升到频道访问量的90%以上。二月初,我看着数字的变化怪喜欢人,在论坛和QQ群里传播了经验,于是大群网站跟进,有效果特别显著的,也有效果不太显著的,效果特别显著的,新浪博客采取同样措施也做用户名索引后,被收录网页数在半个月里从11万上升到400万,天涯属于效果不显著的,做了天涯网藏把所有贴子索引一遍,但是被收录网页数仅仅上升一倍左右。至于说差异的原因,我在前面说的那篇文章里也写到了,有心人可以根据那篇文章里的算法分析两个网站效果差别这么大的原因。
因为有一群网站跟进,所以啊,三月中旬开始,google收录网页数不增加了,不仅不增,反而有降的,直到四月中旬,才开始又恢复收录。算了一下, google中文网页收录总数才十亿,一群网站都做优化在一个月里压进去的网页大约要有两、三千万,远超过自然增长数,所以嘛……google就不幸被我撑爆了!难怪后来有个朋友说我:你这样做对你有什么好处呢?就是,如果没告诉别人,google收录肯定不会停,那样,疯涨的只是我管的那块,多好。
所以啊,后来再写的那篇《怎样通过google提高网站流量》就不免费开放了,需要的,请联系msn:cnrobot @ hotmail.com

一个社区聚合的建议
1.发放免费社区代码,包括博客、论坛、档案文件等程序,并帮助社区网站迁移数据。其中在论坛版面发布的文章自动进入该用户博客。代码内置索引模块,实时重索引并定时发布摘要信息到google服务器。好处:google节约服务器资源,并且用户能在搜索结果里看到的内容就能访问到服务器。对社区网站来说,稳定高效的社区程序是受欢迎的(稳定高效并不是那么容易做到,MSN Spaces的页面都经常打开一半后IE报错),即使加上索引模块,也未见得比以前多消耗资源,同时,内容快速被google收录,能导致搜索引擎带来更多到访,这是社区所关心的。
2.对符合要求的社区开放IM的passport,使这些用户可以使用诸如username@spservice.com的用户名登陆,并且让gtalk 支持多帐号同界面登陆,让用户可以同时以不同社区的不同身份和自己在不同社区的好友聊天,而不必切换帐号。同时gtalk支持搜不同社区在线好友进行聊天。另一方面,.google或者.gtalk或者.gmail成为加盟社区的保留字,拥有google帐号的用户可以直接在加盟社区里发言(由于 google本身在华并不推原创内容社区,所以此点对加盟社区不形成竞争)。
3.对以登陆状态形成的广告点击支付更高的费用,并按点击者档案文件信息丰富程度调整费用。并与每个社区共享该社区广告访问者报告,使社区运营者更有针对性地进行社区运营工作。
4.适当时期推虚拟货币,收入与社区分成,使社区除广告收入之外,还可以获得个人消费者贡献的收入。一个例子:http://paowang.com/cgi-bin/forum/viewpost.cgi?which=it&id=17722
5.应社区网站要求开发一些方便社区网站运营的网络产品,并免费发放。以提高这套软件的推广能力。可以在一些合作社区进行意见征集,用于新产品开发。

风险:索引数据也可能被竞争对手利用。

1.传统搜索引擎工作方式
传统搜索引擎是这样工作的:
a.假定网络上的网页都连在一起,起码从通过一些方法得到的入口处开始分析链接,能够得到需要索引的所有网页;
b.通过一些方法得到的入口开始分析链接并下载网页,绘制网络地图;
c.对得到的每个页面进行文本分析处理,让用户能使用关键字或关键字组合命中包含目标信息的网页;
d.周期性重复前述流程,更新索引信息库;
e.对与其他网页失去联系的过期网页进行释放。
2.传统搜索引擎缺陷
我承认,在早期,传统搜索引擎有很多好处,那时网页内容不多,这样做也够用了,可是,随着网络上信息爆炸式增长,传统的爬虫式搜索引擎缺点越来越明显了:
a.带宽消耗太厉害,从经验来看,google爬虫下载的页面数相当于通过google到访的用户下载的页面数(该网站平均每个用户下载6个页面)三分之二还多,等于是通过搜索引擎来一个用户,google下载4个页面,对于通过搜索引擎到访用户量很大的网站,带宽消耗会增加很多,某网站九成用户通过 google和其合作伙伴过来,带宽消耗增加三分之一,等于是搜索引擎消耗带宽占整体带宽消耗四分之一,这是很可怕的,前段时间donews上也有抱怨百度爬donews的wiki把服务器弄当机的事;
b.由于信息量太大,搜索引擎工作时做了大量的假定,包括某个链接在所有页面的重复情况等,导致一方面信息被漏收录的量很大,另一方面,重复的量也很大,还有对不同线程处理时间估算(匹配比较需要费资源太多,所以只进行估算)导致需要耦合的流程未同时结束就把索引结果发布出去了,诸如此类的假定,造成搜索结果非常不可靠,而且,说实话,按目前的工作流程,即使增加服务器,对这些假定造成的漏洞,也不可能改善;
c.数据更新不及时,有的网站数据要数个月才会被收录,时效性太差;
d.资料类静态数据被收录量远低于人们需求,造成收录量小——用户少——入口少——数据量少——用户更少的恶性循环;
e.由于假定网页之间都有联系,而实际上SNS类网站用户页面之间的联系相当松散,会导致大量网页很难被收录。
3.新一代搜索引擎简介
新一代搜索引擎,由网站主动在网站服务器上安装索引数据库,当网站发生更新时,只就更新部分进行索引,并发布索引的摘要信息给搜索引擎网站,并增加版本管理等功能,网站可选择是否保留历史版本让用户可以查看,并可以按日期搜索网页。
4.新一代搜索引擎优势
由于新一代搜索引擎工作机制,优势非常明显:
a.节约钱,用节约带宽的费用购买硬盘以容纳索引数据库,是非常经济的;
b.节约服务器计算资源,由于只就更新部分索引,比传统的爬虫式重复劳动要节约很多;
c.索引信息时效性、完整性、可管理性都强了很多;
d.当网站服务器不能正常工作时,搜索结果页面里也就不会有该网站摘要信息,用户不会浪费时间(当然,这也限制快照的使用了);
e.版本管理功能网站所有者和搜索用户都是非常有用的,特定页面的版本管理可以编辑成为网志;
f.可以按发布时间搜索网页,使用户迅速找到和时间相关的某些信息。
5.起步的推广
可以有传统搜索和新搜索两个界面,传统搜索使用google接口,上面可以有gogle图标,新搜索只收录安装了了索引服务器软件的网站数据,通过版本管理吸引网站,通过网志功能、时间搜索等功能吸引用户,还可以这样吸引网站:
安装了索引数据库的网站,在搜索网站上安装有镜象,并且指向目标网站的爬虫全部被指向镜象,而通过搜索引擎到镜象网站的用户,则通过页面跳转到真实网站上。这样,爬虫的资源消耗被搜索引擎网站承担,并且不影响搜索引擎对这些网站的收录。

问题及解决办法:
绣花老师说文件索引才能保证只索引更新部分,WEB方式不行。
但是可以通过这样几个办法解决的:
1.使用sitemap,让用户自己划分链接类型,哪些类型链接是不需要索引的,哪些类型链接是不需要进行版本管理的,哪些类型链接是需要进行版本管理的,哪组链接从哪个入口走,需要一个好的默认;
2.结合日志分析及时更新活跃页面;
3.定期(设置在服务器闲时)进行完整重索引。

Google老了,二月份起不正常,到现在还没恢复,具体表现在:1.二月中旬以后发布的网站,被收录网页数一般都不足10,大部分只收了一页;2.没处理完成的网页也急着发布索引,导致长字串完全匹配方式的搜索无法命中用其他方式可以查到的网页,而百度能,看了一下那些网页在百度的版本日期,最早是2月 17日的;3.三月中旬以后,中文网页收录与过期网页释放几乎陷入停顿,已存数据也是不停打摆子,sina.com.cn被收录网页数从1900万到 4200万摇摆;4.出现向合作伙伴“借”数据的现象,呵呵,如果有心人,应该可以看到;5.号称要加大社会性搜索投入,可是,相对其他专业搜索网站,进展慢得可怜。
Google老了么?出路何在?google使用蜘蛛爬网页的方式,如果拿仓库打比方,就象一个没有出库入库手续的仓库,如果需要了解仓库里有什么东西,就总需要人隔段时间进去点算一次,而有出库入库手续的仓库呢,只用根据出库入库凭单汇总就行了,google现在就是采用无手续的仓库管理方式,这种方式,在起步阶段是容易起来,那时网页数据量小,自己开发网站服务器或者相应的软件去为网站主动发布索引提供支持,看上去难度太高了,所以,用蜘蛛,符合当时的条件,可是,现在网络信息量已经爆炸式增长,再妄图通过爬虫编制网络信息索引,简直有些搞笑哦。这种方式,服务器危机早就在哪儿,谁跑最快谁会最先遇到,而且靠增加服务器来摆脱危机也是很可笑的解决办法,因为路子不对。
记得以前书呆子说,硬盘总是比带宽便宜,所以,要降低成本,就要用硬盘拼带宽,对于被索引的网站来说,应付爬虫的带宽和计算消耗也比自己做索引和索引存储的消耗要大,也就是说,其实,google的服务器危机的解药,早就已经在MS手中,google要想这次不被MS用捆绑的办法打败,嗯,也做服务器操作系统吧。如果MS出来对拼,先把服务器操作系统免费?很好的自宫办法。Google发布免费的服务器操作系统不会造成自己收入减少,MS呢?
Google魅力越来越差了,记得原来我还从快照里搜到过郭去疾的简历,以前记得还有过版本比较功能,就是提供一个目标网页早期版本可以对比的,如果把索引推进到网 服务器上去,这些很有用的功能就可以继续提供了,而且,嗯,一些ASP服务也可以通过服务器软件提供。
Google能恢复年轻么?拭目以待……

脆弱的Google
1.它假定用户访问多的地方是重要页面,那么,我可以让机器人去诱惑它认为我的网页很重要;
2.它假定被重要页面链接多的页面也是重要页面,我可以根据它的算法优化链接;
3.它假定作弊的就是站长,我可以帮站长作弊导致站长的网站被封(被google停结算甚至删除帐号);
4.它把一件事情分两个线程去做,但是是按估算的时间来假定两线程的完成时间,这样,会导致楼上说的没完成的网页也发布出来,如果检查,工作量又会很大。

来点数据
某网站某频道有九成访问量来自google,google爬虫下载页面数相当于真实用户PV的三分之一,也就是说四分之一的带宽给了google,这些带宽费用够买多少硬盘啊,5555

Donews的WIKI也对百度发出抱怨http://www.donews.com/Content/200605/ec1680b107974484bd1471dd54b8a99e.shtm

谁能救Google?美国法院?
一个问题啊,加到MS上的刀也可以加到google行,如果美国法院要求google在为网站提供索引服务器软件(安装到各网站服务器上的)时公开数据格式或接口,google有危险么?

2006-05-18

随便用MSN上一个家伙的真名一搜,居然就搜到这家伙的照片,还有他朋友恶搞他的文章。

记得以前写过一篇“搜索引擎是炸弹谁来引爆?”在以前的精品库存里没找到,在自己电脑里找找吧。

搜索引擎的法律问题,是炸弹谁来拉爆?

“拉爆”这个词借用的一些项目合作者的话,意思是既然不玩了就大家都不玩了,一拍两散,彻底把事情废掉,包括把以前的投入也一起清零。当然,在本文中不是这个意思,而是谁会率先发难?
我们来看看搜索引擎存在哪些法律问题:
版权问题,前段时间我曾经考虑制作一个智能化程度高一些的信息定制工具,等于是将多个网站的目录页面整理后搬过来,使其更符合用户的需要,相当于做一个半自动化的搜索工具,当时请教法律界人士,说只要链接不带别人的logo并且没有破坏别人网页的完整性,那么就不构成侵权,有一个这样的问题,目录页面有没有版权?比如说,正常情况下一个用户平均打开目录页面上三个链接,而其中有两个是集中于所谓的栏目头条里,那么我把各网站同类频道的目录页面中栏目头条集中到一起制作成本网站该频道目录页面,肯定是会成为一个比较热的页面,我一条内容也不做,一样可以使频道的目录页面访问量数倍于辛苦劳动的那些网站,虽然用户打开的是那些网站的内容页面,可是从PV上说,我这儿形成一个PV的成本就较他们低得多了,而且最面向的效果是直接废掉网站软广告甚至包括别人频道首页的广告效果。我抓别人目录页面内容的行为,是否构成破坏别人目录页面的完整性,是否构成侵权?而目前一些做分类搜索的网站,当某个页面的链接有一半以上是指向同一家网站时(这点完全可能,尤其是因为用户是在找某类资料时),是否构成侵权?而且搜索引擎精确程度越高智能化做的越好,就越容易构成侵权。现在的网站,对内容的重视程度远高于目录页面的重视程度,一味追求总PV和访问量,对目录页面的版权保护就看轻了,甚至为了增加内容页面的PV而免费发放目录代码,实际上目录页面的编排往往也是编辑费了不少心血的,对广告的承载作用不可低估。

隐私保护问题。曾经有一个回过我贴子的网友问我是怎么查到他的邮件地址的,我当然是使用的搜索引擎,一个经常混迹于网络并在论坛及网页上留痕迹的人,要被别人查到具体身份是很容易的。实际上在很多时候,我们发布信息是给我们的朋友看的,并不希望公知天下,但是搜索引擎使我们发布的信息无所遁形。虽然发布信息时就知道是把信息放到了别人可以看到的地方,但是如果没有搜索引擎,本来信息还可以算是秘密的……是不是有些象在无人的沙滩进行日光浴却被卫星拍下来了?算是侵犯隐私么?

儿童权益保护问题。很多国家都有对少年儿童隐私保护方面的法规,中国也不例外,但是在搜索引擎的作用下,很多未加保护的私人相册被搜到,还有其他的一些信息……

搜索引擎存在这些问题,但是我们很多事情还经常要借助于搜索引擎,所以我们不能因噎废食,要设法解决问题而不是一味堵杀,比如说新的著作权法公布后就有歌厅老板抱怨说那以后还怎么开,还有人抱怨说连播放磁带音乐都不行那当初买磁带掏的版权费是给谁了?在搜索引擎这件事上,当然是希望先有解决办法后来堵漏,所以我希望率先对这些法律问题发难的是技术公司出于经济原因去对老的技术发难而不是由法律专家先说话。实际上在MS站点的技术里我们可以看见解决问题的方向,比如说你允许谁看你的主页就给他发放一个许可,但是如果你这个站点设置的是私有,那么被授权人是无法进行再授权的,但对公开站点则随便谁都可以看到,也可以被发布到搜索引擎上,其实这在技术上应该不难吧?MS在做这件事,其他还有人在做这件事吗?如果全都由着MS去做,我不敢想……

2006-05-13

小远说X-FILE里男主角很失败,拍了那部片子以后做其他什么事都失败,我说企业品牌管理也会有一样的问题,所以有时候不同产品要起用不同品牌,否则新产品可能做一个失败一个,即使比别人做的早。

面试官说内容和商务结合的东西不是她部门的事,其实,做内容的当然要关心商务,所有的投入,都应该先考虑价值点在哪儿,从哪儿能获得收入,否则就不要做。比如说做内容,就考虑:1.广告收入承载能力的增加;2.如果不能增加广告收入承载能力,那么,能否增加向本站其他页面输送流量的能力;3.直接销售额(娱乐、移动增值服务类)的增加。做不到这三点,就不要做。而且做到了也要争取做到利益最大化,每个PV都是要花钱的,怎么做到在内容制作和系统负载最小的情况下收入最大化,所以要细分市场,做面向高端用户的内容,而且使其他用户不感兴趣,降低系统负载。生产是为经营服务的,如果不能销售出去,生产越多浪费越多。以前工厂销售形势最好的时候,党委书记讲那个著名的“温水煮青蛙”,可是,后来工厂经营还是走了下坡路,人都太安逸了,某公司现在也跟国企似的……

并不需要跨部门合作啊,这本身就是内容部门应该考虑的事。