博客首页|TW首页| 同事录|业界社区
2006-06-29

问题是,为什么要驭下有方?
这几天,一方面苦口婆心动员那个怎么都不肯写工作清单的下属写工作清单,我明着告诉她,她不写实际上我就没法检查和安排她的工作,而且写出来对她自己也是一个帮助,能知道在做什么,有哪些是无用功,哪些是应该加强的,怎么提高效率,对她自己在公司的发展也会有好处。她总算知道拉了个清单把日常工作列表给我了,虽然现在的看上去还过于简单,但总算是有进步。
另一方面,这周来的那个家伙太年轻,有点冲,老想出主意,其实还没弄明白咋回事就乱出主意。我不动声色几次指出他的错误,总算老实点了。其实我不是心态不开放,而是希望他们在出主意的时候先想清楚,不要浪费大家的时间。
上次领导还说我不知道树立威信。其实,怎么说呢,我追求高效率,如果大家都能在计划好的框架下跑,那么最少的干涉是效率最高的,所谓老板,对内提供平台让下属能全力发挥,对外争取资源,让本部门发展空间得到拓展,以使本部门业绩更容易实现。而且下属不用为老板的事负责,老板却一定要为下属的事负责的,因为到最后下属的责任老板也逃不掉,而相对来说,只要架子不倒,老板不换,下属按计划实现了目标,那么根本不用管老板的其他下属是否完成任务以及整体是否完成任务的。
所以对于老板而言,关键还是整体的目标能不能完成……

怎样通过google提升网站访问量
1.SEO会不会导致google封我的站?
希望做SEO来提升流量的网站,最大的担心是怕被google认为作弊而遭到封站,了解google的使命和价值观有助于解除担心。
Google是网络广告公司,广告公司的收入提升载体依赖发行量,而载体发行量的提升又依赖于载体受用户欢迎程度,所以google将价值观确立为提供更有用的服务给用户。只要你所提供的内容是用户所需要的,符合google的价值观,google就不会封你的站。
2.目标分析
要提升搜索引擎来的流量,首先,要让google收录本站网页,其次,要提升本站在搜索结果中的位置。
后文我们就从如何让google收录网页和提升本站在搜索结果中的位置两方面来说。
3.目标分解
3.1如何让google找到本站
要被google收录,首先需要让google找到本站,google有三种办法找到本站:
a.安装了google工具条的人访问本站,如果本站尚未被google收录过,那么google就会从工具条返回的信息中了解本站的受用户欢迎程度,并对本站进行网页抓取。
b.其他网站对本站的链接,当其他网站的页面已经被google收录,上面有本站链接,google就能通过超链分析找到本站。
c.当有用户以site语句查询本站信息时,也能让google主动收录本站。
3.2提升本站在搜索结果中的排名
3.2.1Google对搜索结果的排名因素:
a.著名的PageRank技术,也就是链接本站的网页的重要程度,其实,从经验看,这个技术所起的作用越来越小。
b.全站被收录页数,同样一个网页,放在被收录页数只有几百页的网站里和被收录页数达到几十万的网站里时,被搜索引擎命中的可能性相差十分悬殊,在持续一个多月的测试里,一个内容比较偏色情的网页,在只被搜索引擎收录几百页的网站里被搜索引擎用户命中的次数平均每天不到一次,而被搜索引擎收录几十万页的另一个网站里被搜索引擎用户命中数平均每天一百次上下,而且比较稳定。
c.被用户访问情况,google做了这样的用户行为假定,如果一个网页重要程度还不足以让用户收藏,但是用户有回访的兴趣时,就有很大可能性去通过搜索引擎找回这个网页,所以,根据用户点击搜索结果的投票可以判断一个网页的受欢迎程度,这个方法甚至比page rank更符合用户需求。
3.2.2针对排名因素做文章
a.提升网页的PageRank,其实,只要做到受用户欢迎,就可以提升page rank,举例来说,某个站点的热门内容排行页面,没有什么外部链接,站内链接也只有一个,但是由于内容很受欢迎,所以PageRank值能达到5,前面也说了,这个值现在看是越来越不重要了,所以……
b.提升被收录网页数,不要以为网站放到网上就会被搜索引擎收录,SNS以及博客站点,站点与站点之间如果没有桥梁,很容易断链,而且并不是说有链接就可以被收录,做超链分析时很多链接是要跳过的。
1)网页之间不要有断链,博客之类网站设计时很容易留下断链,长时间不更新的用户,从首页是怎么都点不过去的,人点不过去,搜索引擎也就爬不过去,一个解决办法是象黄页网站一样加用户名索引页。
2)google处理网页链接的办法,由起始网页收集三次链接(不含起始网页)的全部网页,集中处理这些网页的所有链接,静态页的相对链接不加次,但是跳转和重写都要计成两次(如果A到B时B经过了一次跳转,那么这次跳转要消耗掉一次,这次路径只再走一步),所有网页链接排序,按起始网页重要程度分配线程进行处理,如果处理能力不足,跳步处理(按他们自己说法,是按一个哈希表做跳步)。跳步处理链接把对应网页写到一起处理,把每对body视为一个网页计数。知道google处理网页的办法,我们就找到了很多网页没被收集的原因,链接需要重算(不含静态相对地址)的地址因为被计了两次,所以难以与互链网页形成回路,被收集的次数很小了,当线程分配不足时,链接可能就在跳步的时候跳过去了,另外,在排序的时候,问号由于被程序当做宏,可能会导致含问号的链接处理错误,如果希望被链接到A页(A页已被google收录)的B页一定被收录,那么从A页开始的三次链接里要有多一些路可以指向B页才行,这是门页技术吗?不是的,我们可以看看怎么实现:A——B(一次点击到达),A——B——A——B(两网页互链),A——B——B(B页有指向自身的链接,比如回到顶部之类),A——B——C——B(B页和C页有互链),主要就是这几类,那么多一些路是很容易的,尤其页内链接(博客的日志页一般都能达到,因为日志页里通常有近几篇日志的链接)。其实这基本上就可以看出来为什么动网论坛的页数被收集少了,链接格式是大问题,而没有形成有效链接回路导致塔中链接数不足,也是大问题。其实可以通过修改发贴人“文集”链接指向来改善这个问题的,但一定要在生成页面的时候就把链接生成直接地址,需要跳转会导致收录不进去。由于 google把每对body视为一个页面,所以,象oblog这样的日志系统页面是很容易被计算很多次的,虽然有内容的页面数少,但是前面说过,总页数多会导致网页更容易被命中,所以选择合适的系统肯定是有助于提升搜索引擎到访的。
3)前面说了google价值观,其实也是提升搜索引擎到访量的最核心所在,提供对用户有帮助的内容,当用户没有记住网址而通过搜索引擎找回来,并且点击了本站,那么,就相当于给本站投票了,从目前的经验看,搜索引擎找回投票权重大于安装google工具栏访问本站,网页链接反倒是对搜索结果影响最小的,偏色情内容吸引流量特别有用(这类网址一般不会被收藏,但是用户有通过搜索引擎找回的愿望)。
其实,一些内容网站如果象日志那样,把内容用日历扁平化串起来(网站结构就成了频道首页——日历页——当日内容列表页——内容页,历史内容不会被推到很难收录的深度),也会使网页更容易被搜索引擎收录。
根据以往经验,被google收录页数在百万量级的网站,社会新闻类的内容页能吸引的搜索引擎到访量大约为10:1,频道被收录20万页时,每天通过搜索引擎到访的IP大约为2万,结构优化大约三个月后能达到稳定,用户原创内容20:1到30:1,比如博客或者论坛,主要是回复的权值太低。前期如果使用一些工具进行热门内容数据采集,编辑适当进行加工整理,可以达到很好的效果。

2006-06-28

人肉作业:为降低成本而采用技术落后但需要很多人力的作业方法。
有一个这样的用例:美国医生有口述病历让护士速记的习惯,由于印度人工成本远低于美国,因此当通信成本可忽略不计的时候,可以由印度人远程速记美国医生口述的病历再发给美国医生。相对语音识别输入,这就是典型的人肉作业。
据说这个用例出来后,几大巨头加大了VOIP方面的研发投入而降低了语音识别方面的研发投入,这个笑话,够冷吧?

昨晚和几个朋友吃饭,他们说起一些人肉作业降低成本的例子,最后总结,在中国,人肉作业大部分情况下比高科技成本要低。
人肉作业和高科技比较成本时有这样几个优势:
1.很多情况下人工成本比使用高科技设备的折旧费还低;
2.即使高科技设备满负荷情况下成本低于人工,但是加上操作设备的高级人工,以及应付高级人工需要增加的管理成本,成本还是高;
3.即使前一条情况下成本如愿降低,通常达到满负荷比较难,又不可能去和竞争对手拼盘降低成本;
4.即使高科技设备负荷不满时成本都能低于人工,初始投入总是大于人工的,用设备是先交钱后用,用人是先用后付钱,一个生意模式还不定能持续多久呢买设备风险多大啊;
5.用设备成本是阶梯升高的,每天生产一万两千件产品时,日产量满负荷一万件的设备就得买两套,用人工成本很好控制。

他们眼里,还有人肉作业最适宜年龄段——十七、八岁到二十一、二岁,认为这个年龄段的苦力,期望值低(十七、八岁打工的通常刚经受过高考打击),身体好能胜任人肉作业强度,没啥社会性负担(不用考虑结婚生孩子什么的),而且有一定的知识技能能看懂作业指令和操作电脑。有这样几个因素,这个年龄段的人肉,可谓价廉物美!
不仅在呼叫中心、数字加工业这些大量用人的作业中可以使用前述“人肉”,而且,一些临时性的工作,也倾向于使用“人肉”,比如说包装整理之类临时又紧急的活,总不好让已经加班了好多天的手下继续加班,而且可能还需要支付一小时三五十块钱的加班费,不如电话物业找一群做包洁的阿姨来,还是按小时付钱(一小时才八块钱),又比做保洁轻快,双方都满意。
听起来,都挺美好的,可是,这都是基于中国有大量(几乎可以无限供应)廉价劳动力的国情,如果没有了呢?难道要去非洲或南美洲雇人?

无论他们说的多么美好,我心里还是很排斥这种做法,科技进步敌不过低成本地区的人肉作业,真讽刺。
刚看到蟋蟀说,114也改版人肉搜索了。

昨晚一起吃饭的一位朋友说人肉成本在中国占据上风的原因是:
短视的企业雇主在考虑短期利益时,忽略了追求低人力成本对社会造成的负担,大家在逃避社会责任。一个企业不用承担社会成本,换来的都是血淋淋的利益,很多行业都存在这个问题。
(备注:雇保洁阿姨做临时工的就是他,他还知道能从网吧、山区找来便宜劳动力,而且对方也高兴。)

2006-06-27

相对其他网络服务,博客服务具有这样几个特点:
1.信息记名消费比例远高于新闻阅读,新闻阅读的信息消费基本是匿名的,记名消费对于广告发行非常重要;
2.信息消费不再遵循二八定律,而是遵循长尾定律;
3.因朋友而构成的作者、读者关系一般在相近的消费层次上。
针对这几个特点,我们可以有针对地设计广告产品。

今天早上心血来潮算了一下住处附近的公交候车亭广告发行情况,鸭子桥北里南向北方向车站,大约十几条公交线路,忙时平均每分钟六人离开,闲时平均每分钟一人,按早上六点到晚上九点、忙碌时段三小时计算,每天由此上车的人大约为1800人,这个车站离站乘客远大于进站乘客(马路对面车站相反),进站乘客相当于离站乘客数量三分之一,加起来,广告发布对象2700人,而且每天基本没啥变化。
公交车站广告价格是制作及发布价格每平方米120元(制作费一般不折扣),每月每平方米广告费500元(报价,可折扣),每块广告六平方米,每座候车亭有两块这样的广告,按广告费八折,半个月更新一次广告内容计算,一块候车亭广告的月费需要2400+1440=3840元,摊到每个发行对象身上,将近一块五毛钱,好贵啊。
同一块广告,看多了就疲劳了,但更新就意味着成本升高很多,半月更新一次的情况下制作费就已经相当于发布费用的60%了,而且车站候车人群消费重合度不高,等于是有很多广告费浪费掉了。

由于博客服务信息消费记名比例很高,因此我们可以甄别地区并按用户注册信息发行广告,比如说按年龄、职业或所属行业发行相应广告给用户。
无论二八定律,还是长尾定律,BSP都可以控制特定位置的广告显示的,所以这点对广告发行影响不大。
针对博客信息消费的朋友圈,可以推广互动广告(带评论区的,可供企业改进等)。

就按上面说的几个原则,我们可以设计一款这样的广告产品:品牌俱乐部。
博客自行由BSP提供的俱乐部中选择品牌添加到自己的品牌专区,每类只能选择不超过一种,并且要遵守俱乐部规定,比如不得在自己的博客里评价竞争品牌的产品或服务等。当有人访问博客站点时,顶部广告区根据读者的IP及注册信息有针对地发行属于博客品牌专区的广告。博客可以根据广告发行情况从厂商那儿获得优惠券或直接由网站获得虚拟货币(可用于网站其他产品的消费,比如虚拟形象或社区互动道具)。
举例来说,用户在碳酸饮料里选择了“可口可乐”,在手机里选择了“MOTO”,快餐里选择了“KFC”,一个北京的读者上来访问这个博客,站点,顶部可以播放三个品牌的优惠活动,但是如果一个小城市的用户上来访问,可能不播放KFC的。由于很多广告信息其实量很小,所以广告区已经完全可以展示这些信息了,不需要另页就可以显示完整。
用户登记地址后可获得实体的优惠券(或VIP卡),进行相关消费的时候可以获得优惠,而优惠券和卡都由BSP邮寄,根据用户响应情况等,BSP可获得相应档次广告收入。
这样的广告,由于对用户忠诚度的培养很好,互动广告使厂商能降低市场调查费用,所以对厂商的吸引力是巨大的,但对BSP的技术支持能力要求也是非常高的,所以只有有足够实力的BSP可以这样做,可以把很多竞争对手挡在门外。

2006-06-26

二月底google及其合作伙伴对单个网站带来的流量(IP)大约相当于被收录网页数的10分之一到30分之一,按低位30分之一计算,google被收录中文­网页数应不少于搜狗吧,30亿?30分之一就是一亿,也就是说,按平均一个搜索页面形成一个点击计算,当时中国用户每天使用google执行的搜索PV应在一亿­以上(含合作伙伴网易和腾讯,不计入口PV,加入口PV差不多要再加一半)。

按底下链接的那篇文章,雅虎中国当时PV只有1500万,这是连入口PV包括在内的。


http://www.techweb.com.cn/business/2006-06-16/66616.shtml


techweb上那篇文章这段话却怎么都说不通(以下为引用):


交易之初,阿里巴巴称,雅虎中国拥有中国32%的搜索市场,微弱落后于拥有33.1%市场份额的百度。但2006年3月推出的“艾瑞2005年中国搜索引擎市场­年度报告”中,阿里巴巴是这一市场前3位选手中唯一表现下滑者:百度的市场份额由2004年的33.1%跃升到一年后的46.5%,Google 也由22.4%­提升到26.9%,雅虎中国却遭遇了一次“崩盘”,市场份额从30.2%下降到2005年的15.6%。


————————————————
引用结束


即使原来雅虎6000万都是搜索,也比不上google啊,怎么相当于google十分之一时,还能比google一半还多?


按alexa数据,百度每百万人用户为93300,google.cn是7850,sina.com.cn是67400,google.cn用户占.com的多­少?


按前面的估算,google中国用户总PV大约1.5亿,按techweb上那篇文章新浪PV大约为每天3亿,新浪单用户PV是10,google.cn 是5,­百度是11,按PV算,google在中国通过各种入口使用的用户数比新浪还高,和百度很接近,考虑到百度有20%的用户使用的是非搜索产品,在中国googl­e比百度搜索用户少吗?


另外,很多人说百度比google能带来流量,我估计大部分说这话的人,每天通过搜索引擎带来的流量不过万,百度对一般商业站点的网页收录上限为2.5到 3.5­万之间,google没有这样的限制,据说百度封站标准是一万,嗯,上次有家要和google打官司的美国网站,被google封站前通过 google来的流量­30万。

备注:经过别人提醒,我想,可能艾瑞说的市场份额是指销售收入,就象空调的市场份额有销售额、数量、总功率一样,搜索市场份额多一些指标也是可以的,不过,google在中国销售额真比百度少么?存疑(比较市场份额时销售收入要可比,比如说google从合作伙伴那儿拿到的服务费金额为A,合作伙伴发行广告终端销售额为B,这块市场份额计算时要按统一的终端发行额B计算,而不是A)。另外,百度单人PV比google高一倍,让我想起有人说用玻璃做关键字在百度搜的前几页都是赞助商链接了,呵呵,用起来真累。

2006-06-17

网志网需求说明
1.引言
1.1WEB2.0的本质
是“我的互联网”,也就是说,信息都以“我”为中心组织,我需要的信息,自动推送到我面前,我发出的信息,我能很方便地跟踪别人对信息地反馈及意见。
现在的网络,即使号称WEB2.0的一些网站,也离此要求差很远,何解?
1.2网志网简述
网志网由三部分构成:a.网志网站点;b.社区网站开源代码;c.P2P搜索引擎DEMO。
网志网站点包括各门户网站及大论坛每天热门内容排行榜及上榜主题摘要,并有与排行有关的资讯,如点击、评论数量等,并可点击评论链接看到来自各社区网站的评论内容,以及进入各社区网站。
社区网站开源代码可以很方便地让其他网站建立自己的社区,并建立网志网网志部分镜象,使本站用户可以方便地跟踪热门资讯,并对热门资讯的评论也自动纳入本站用户的个人文集。
P2P搜索引擎的两个P分别指被索引网站和用户端,通过提供给被索引网站合适的工具减少带宽及计算消耗,开放词频统计及索引端口,让研究人员方便地获得中文词频统计资料。
网志网不支持用户注册,也不进行内容生产,只是为用户跟踪热门资讯以及保存自己的发言提供一个纽带作用。
使用开源代码的社区网站之间可以不仅共享评论,而且在文字聊天等方面,也可以方便地共享用户资源。
1.3用户行为模式假定
a.用户喜欢看大家都在关注的内容;
b.用户发表评论时会先看看别人已发表的评论;
c.用户关心别人对自己发言的反馈。
2.网站详述
2.1网志网
2.1.1站点结构
 网站首页
首页列使用网志镜象的站点链接。
 网志
 被收录站点——日期——排行榜
被收录站点按站点名称排列,书页方式显示,程序员分析完一个站点加一“页”。
日期按博客日期显示方式,年份及月份在底部有绝对地址链接。默认显示当前日期。
排行榜可显示摘要或只显示标题,每条内容显示项目除标题、摘要之外,还有:查看原文(XXX人)、阅读评论(XXX条)、快速回复(因为在阅读评论里也有回复框)。
 演示
演示为镜象站添加代码说明。镜象站在网页中添加所示代码即可添加上相应站点的网志镜象。(镜象站可以按网站本身用户群选择网志中合适站点添加)
 社区网站开源代码下载
社区网站代码说明及下载。
 搜索
P2P搜索引擎代码下载及说明,搜索执行页。
2.1.2程序逻辑
用户在镜象站点发回复自动被网志网收录,并被收入用户在镜象站所属社区网站的个人文集,网志网可阻止不合适的评论在网志收录的评论中显示,但并不能删除原站点的内容。
2.1.3角色分配
网志网管理员:阻止不适当言论。
社区网站管理员:删除不适当言论、封ID等。
社区网站用户:可对网志发表评论并显示在评论列表中,显示在评论列表中的同时被收入个人文集。
2.2社区网站
2.2.1站点结构
 用户站点
 个人档案/编辑
 日志/管理
 个人文集/管理
 相册/管理
 聊天室/管理
 管理后台
 模板管理
 标签管理
 用户管理
 日志管理
 文集管理
 相册管理
 聊天室监控
 网志镜象
2.2.2程序逻辑
社区网站代码为开源代码,针对不同服务器配置有不同版本。
用户以登陆状态进入本人站点页面时,出现相应的编辑或管理按钮,点击弹窗方式打开编辑或管理界面。
个人档案以标签方式管理,用户可以自由使用(不使用)标签项。
聊天室可匿名登陆,只有各用户站点主人在时才可以打开。
2.2.3角色分配
用户:创建自己的个人站点及使用。
管理员:管理站点。
2.3P2P搜索引擎
2.3.1站点结构
 搜索主界面
 演示及字典、程序下载
 字典管理
 链接类型管理
2.3.2程序逻辑
搜索引擎服务器收集词频统计结果进行整理生成字典分发给被索引网站(第一次字典由搜索引擎服务器根据网志收集的文本进行词频统计生成)。
被索引网站根据字典进行索引,只判断文本中有无某个词,不判断分词位置,如果网页有某个词,则将逻辑信息表中相应位置的0改成1。对不属于任何词的字串进行词频统计,频率超过站点设置值进入站点的字典管理界面,站点可对其舍弃或标注词性(标注词性只标注是否专有名词)后提交给搜索引擎,提交内容包括词、是否专有名词、频率。被索引网站可以根据本站服务器情况设置索引颗粒度,比如只根据高频词索引还是索引到低频词。词频为相对词频,即同首字的字串总数中比例,比如“蟋蟀”在“蟋”为首的字串中比例很高,所以虽然“蟋蟀”本身频率不高,但“蟋蟀”是高频词。
逻辑信息表:由0和1组成,每位对应字典中一个词,每个网页一张,如果网页中有某个词,则相应位置由0改成1,如果没有,则保持0不变。
被索引网站根据设定的时间提交索引信息表及词频统计信息。
被索引网站根据软件爬虫生成的大致的站点地图进行链接类型划分,确定需要定期更新的页面、需要进行版本管理的页面、索引一次以后无须再更新的页面等,并确定更新方式,是跟踪日志来更新未索引页面还是定期根据文件命名规则更新,以及整站重索引时间。
被索引网站将逻辑信息表和词频统计信息发送给搜索引擎。
搜索引擎根据收集的逻辑信息表进行计算,生成全网索引信息图。
用户搜索网页时,输入的内容根据字典转化为逻辑值,根据全网索引信息图命中相应网页并提出摘要生成索引页(摘要不经过搜索引擎,而是直接由被命中网站的服务器传到用户端)。
2.3.3角色分配
搜索引擎管理员:主要管理字典及下载站。
被索引网站管理员:主要管理字典及频率。
3.广告位置分配
由于存储和计算有部分分配到了被索引网站,因此,评论列表框及索引列表的右侧广告位置,都分配镜象网站和被索引网站,并提供相应管理工具,使其可以根据用户来源发行不同广告。
(评论框上的广告参考搜狐论坛,索引列表右侧广告参考google。)

2006-06-02

1.帐单管理(含媒体及广告分发管理)。负责用户购买商品的拆单及整合,银行不知道钱付给某商家都包括什么交易的,商家也不知道所发货物都发向何处,物流公司根据标准包装上货号进行配送,不知道包装里有什么,但是知道运输要求(包装上有)。应该叫客户关系管理公司?
2.理财顾问平台。提供最好的理财分析工具,理财顾问们使用这些工具工作,向用户提供咨询服务,用户也可以自己租用工具。
3.线下资源导入(连锁形式)。地图数据采集、各类设备接口管理、实体物品标准培训、信息数字化、用户入网服务等等,包括的公司类别就很多了。