Archive for January, 2010

从Wiki行业看互动百科

记录我对wiki行业的一些思考,同时也感谢朋友们对我调查问卷的支持,哈哈。

Wiki行业看互动百科 

摘要 

Wiki的出现改变了人们对知识积累和分享的进程。目前wiki概念逐渐被网民接受同时wiki还存在很大的发展空间;wiki行业应该注重发展垂直细分的百科领域同时不能缺少对个人网站和企业网站建立wiki的关注。因此在现有中文wiki市场三强相争的局面下,建议互动在线的优先和重点发展HDwiki开源项目,并且注重HDWiki的本地化,领域化发展,同时注重词条的简洁通俗,并采用多元化手段进行推广。

 

Wiki不是一个新鲜概念,从04,05年起在国外就已经很火热,而当时wika概念在中国也开始方兴未艾,涌现了很多同类的百科wiki网站,比如donews的wiki(现已渐渐没落,垃圾消息淹没)、互动百科,百度百科等等,往后的阶段有更多的门户置身其中,推出自己产品:比如sina iask百科,soso百科等。在这个新兴知识领域中,wiki目前发展如何?作为三强之一的互动百科应该如何脱颖而出?

个人对wiki行业观察

1. wiki渐被接受,依然存在发展空间。

Wiki已经不是新鲜的概念,维基百科、百度百科深入人心,大多数网民均知晓wiki概念并浏览过其中词条,而且里面有相当多的年轻人,尤其是具有较高学历的人,将wiki上的词条解释纳入论文、研究、论述的一部分,这中现象在文科、理科学生中都存在。

这其中搜索引擎引导网民定位wiki词条对Wiki的发展起到很重要的作用。个人认为:“有问题->搜索->深究含义->wiki”,这种认知和学习模式在逐渐成为一种工作常态。(不得不说,百度搜索对wiki在中国的发展起到很大作用) 不过,这并不代表wiki应用就完全走出高端被平民化,在调查的人群[1]中,见调查报告,依然有14%不了解wiki,而且了解的wiki的人群中,绝大多数属于浏览者,而非词条的贡献、参与者。这种局面的产生,是因为wiki本身就是对知识积累和解释的本源造成的。Wiki本身无法成为一种网民必须品,但是可以为懂得它的网民提供更好的知识服务,20%的贡献者为80%的浏览者提供了更好的知识积累体验,也同时增强了这些贡献者之间的成就感和满足感。

因此,第一个结论在于:wiki不会像搜索一样成为互联网的水、电基础设施,但是它的出现可以更好的服务网民,提升网络浏览质量。

2. 各类wiki群雄逐鹿,大百科&垂直皆有市场

目前存在大量百科网站毋庸置疑,仅4大门户网站就有soso,sina(http://wiki.iask.sina.com.cn/)推出了百科产品,而baidu百科更是一枝独秀,因为拥有搜索入口这个优势,在中文市场上,占有很大的市场份额(尚未有权威统计数据支持,但凭经验以及相关反馈可推算)。互动百科也是不容小觑的很强一股力量,凭借一定的创新应用在国内站长圈内有一定影响。据统计,目前中文wiki市场被维基百科Wikipidia、互动wiki和百度百科三家瓜分大头,占据前三甲位置[http://news.hexun.com/2009-12-02/121878715.html]。而且互动与百度之争难分伯仲http://blog.sina.com.cn/s/blog_5101b9050100eycn.html

下面就这几大百科网站的内容进行一个简要对比,本人经常需要词条查阅,对这几家百科网站有一个大致了解。主观说来:wikipidia最为专业,百度百科依托百度搜索引擎聚集了大量人气,质量位居次席。互动百科词条多,但词条质量由于贡献者少在三者中局中。本次采用“国家最高科技奖”这个词条对五大百科网站从以下方面进行评估[2],具体比较见下页。同样印证了这样的观点:

  1. Wikipidia质量最好,中立性强,交叉引用丰富,参与人更为积极
  2. 互动wiki附加服务最多,有很多分享、同义词推荐、BBS讨论等小功能,词条质量排名第三,落后于wiki以及baidu。参与人数和浏览量较少。
  3. baidu wiki依托其baidu搜索入口,用户浏览量大,用户基础好。
  4. soso和sina的wiki和以上三家不论从质量、用户体验上或用户数量上不是一个数量级的,这也不是他们的强项。
  5. 除开wiki之外的几家百科网站,内容同质化现象较为严重,这也是制约目前百科网站的一个重要因素。

是否有这么多强势的百科类网站后,其它的百科网站就没有意义了呢?其实不然,众多的门户和专业在线大百科网站的存在,并不意味着其它wiki没有存活空间。其它网站可以通过各种手段和途径避免与这些大百科的正面冲突。比如sina wiki将百科与问答结合起来,推出的爱问开放词典,有效粘合了提问用户与知识分享者之间的联系,形成很好的互动效果。同时sina也推出了一些垂直wiki网站,比如房产wiki,生活wiki等,专注某一领域的百科知识。而soso百科则利用了qq庞大的用户群,形成一个天然的百科知识集散地。这些都只是全行业的真正百科wiki,但是除开这些大而全的百科,还有很多领域内的wiki网站,他们可以提供某一个方向和具体行业的专业“百科”知识,同样拥有较大用户量以及流量优势,wiki本身就是一个众包

比如:

历史故事领域: 神话故事百科(http://www.pantheon.org/),

经济管理领域: 中文经管百科(http://wiki.mbalib.com/wiki/%E9%A6%96%E9%A1%B5)

音乐领域: 音乐百科全书http://www.musipedia.org/ 等等。

表1. 百科类网站特定词条”国家最高科技奖”的比较结果

  baidu hudong wikipidia soso sina
词条质量(主观): 有交叉引用,质量在hudong和wikipidia之间 无交叉引用 质量一般 质量高,交叉引用多,参考文章列出,规范,学术气氛浓 质量低 不能反映最新,质量低
附加服务() 分享功能 被引用,收藏,提问,相似词条,分类、bbs等小功能 无任何附加服务 1版本 两版本,无版本对比
用户体验(格式、结构化、清晰度) 两栏,简洁, 不够简洁,格式清晰,逐段编辑 简洁明了 逐段编辑 分两段,逐段编辑
评价人数(对其有用): 浏览3000+ 无评价,阅读人数少 9人? 无评价系统 无评价系统 3星 无dig功能
贡献人数(参与编辑): 2版本,3贡献人 2 10 1 2
采用协议   互动百科版权图片中心的作品共享内容引用自CC协议 明确采用CC-by-sa-3.0协议和GFDL协议    

3. 网站搭建自己wiki系统呈现一定趋势。

不论是个人网站或者企业网站,使用wiki平台进行网站布局的趋势越来越明显。

目前个人建网站随着虚拟主机、租用空间的价格降低以及建站程序和流程的简单呈现上升趋势,个人网站上的wiki系统既可以提升网站品味和专业程度,同时又能吸引志同道合者协同编辑,聚拢人气。而使用一款开源wiki系统,就能方便、快捷的搭建自己的wiki平台,目前市面上开源wiki产品不下百种,各类wiki工具和产品多如牛毛,见http://www.wikimatrix.org/。 因此wiki现已逐渐飞入“寻常百姓家”。

个人网站采用wiki系统主要有两个目的:

  1. 知识沉淀与积累,独立编辑居多。
  2. 与志同道合的协同编辑,开创某一垂直领域的top baike。

与此同时,企业网站、商务网站中wiki百科的数量也在增加。(这部分缺乏相应数据支撑) ,现实中的例子: http://wiki.5idevil.com/ 以及sina财经频道下房产百科都属于企业级百科网站。

调查问卷以及分析

为了撰写这份报告,我发放了一份简单的调查问卷,通过EMAIL的方式转发相关受访者,希望对wiki概念的普及程度以及wiki使用程度等方面进行简要调查,发放问卷50份左右,回收29份。调查对象主要集中与IT、通信等科技行业,同时也有10人左右的非IT领域人群。此次调查受限于环境,虽然样本很小,但也能说明一定问题。

采用python脚本简单处理反馈数据,详细过程请见:

http://www.cnblogs.com/caicono

表2.调查内容和数据

问题1:您了解wiki (百科)吗?
选项 A. 没听说过
B. 没有使用过,仅仅浏览过
C. 不仅使用,而且贡献过词条
D. 对wiki的技术原理、实现等比较清楚
选择  
问题2:某个网站具有站内wiki功能,或者本身就是某一个领域的专业百科网站,您对这种网站什么态度?
选项 A. 有兴趣
B. 无兴趣
C. 无所谓,不影响我
选择  
问题3. 如果贡献词条,则您愿意贡献词条的原因是:
  A. 兴趣
B. 成就感
C. 让专业知识得到积累和沉淀
D. 可结识一些志同道合的朋友
E. 即使了解也不想贡献,太麻烦
F. 其它
选择 (可多选)
问题4. 现有wiki网站(如维基百科,baidu,soso百科等)的功能如何?
选项 A. 很好,完全满足要求
B. 多媒体信息(音视频)更丰富些
C. 词条更专业些
D. 表述更简洁一些,比如通俗易懂些
E. 通过手机更方便快捷地访问
F. 其它
选择 (可多选)
 
如果您对此问卷有任何疑惑或者建议,可以写在下方,谢谢。
idth=”463″>

调查结果

clip_image002[4]

图1. 对wiki的了解

clip_image004[4]

图2. 对具有wiki功能的网站或者领域内专业wiki的态度

clip_image006[4]

图3. 贡献词条的原因

clip_image008[4]

图4. 对wiki网站现有功能的期望

对调查问卷的分析:

1. 绝大多数人(72%)了解wiki概念,但是贡献过词条的人非常少,仅占7%。而且依然有部分人(14%)不了解wiki,这次抽样调查主体人群在IT,通信类领域,由此可推断普通人群中普及wiki的空间还有很大。同时发现有部分人采用Wiki作为项目任务分配的替代工具,这类人群对开源wiki很感兴趣也善于研究和钻研,但他们属于IT精英,占极少的数量。

2. 由图2可知,人们都不会排斥具有wiki功能的网站,而且愿意尝试。

3. 驱动用户主动贡献词条的原因中,排名靠前的三位分别是:让知识得到沉淀和积累(32%),个人兴趣(30%),拥有个人成就感和能够结识志同道合的朋友并列第三。可以看出用户将wiki作为一种知识管理和积累的工具进行词条贡献。我们可以通过适当的激励手段,增强用户贡献词条的兴趣以及个人成就感,提高网站百科的词条贡献率。或者通过增强网站的sns特性,让有共同兴趣爱好的能更好的交流,也同样可以提升用户的贡献意愿。

4. 对现有wiki网站普适性的调查中,认为wiki网站功能已经完善无需改进的很少,仅有1人。而用户最希望词条的质量能更准确和专业一些,同时保证多媒体信息(如音频、视频、图片)更加丰富。其次,希望词条的表述能更通俗、简洁一些。这虽然与要改进的第一条–专业性有所矛盾,但这确实大部分普通用户的心声。

建议优先发展HDWiki的想法

正因为目前百科类网站数目繁多,而wikipidia与百度作为互动强劲的竞争对手,三家称雄中文wiki市场,这种趋势在近期内很难发生改变,而且词条质量和用户数目的积累非一日之功,因此对于互动百科而言,在做好主站互动百科的宣传、推广、维护的同时,应该要在开源wiki这个方向下大气力,占领站长定制wiki的制高点,并形成自己的拳头品牌形象,做到行业内第一。理由如下:

1. wiki的高品质质量短期内难以撼动。互动百科主站主要管理和维护百科词条知识,最终要产生社会生产力推动社会发展,这些知识产生生产力的条件是:专业性,中立性以及多交叉引用特性。而形成这些条件不仅仅需要时间的累积和具有专业素养的人员热心参与,更需要一种无功利、纯粹为了兴趣去做好一件事情的原始动力。前两个因素可以通过慢慢培育市场和激励专业用户参与其中协助编撰词条达成,但是后面这个因素正是wiki的天然优势,wiki自诞生之时起的非盈利性、高知名度和词条质量品牌效应使得wiki在词条的编辑质量、数量和用户参与度上占据绝对优势。而且呈现一种马太效应,随着时间的推移会有更多愿意分享和传播知识的人进入wiki,这一点毋庸置疑,因此互动想在短期内大幅提升词条内容质量是不现实的,也是因为它自身的商业气息的必然。

2. 百度的搜索入口限制了互动在百科上的发展。在同一个细分领域内,尤其在互联网领域,一般的市场容量是2-3家顶级公司,他们可以赚取整个领域70、80%的利润以及关注度。在wiki市场上,目前的三家巨头为wiki、baidu百科和互动wiki。百度把握着搜索入口,由于与hudong百科和wiki的直接竞争关系,它所拥有的巨大的查询流量都优先给自己的词条,这对于互动而言是一个非常致命的限制。因为wiki有完善的用户自主编辑体系,提供高质量的内容,尽管通过baidu查询难觅其踪,但用户有时为了高质量的内容,可以直接从wiki门户进行查询。而互动在词条质量的专业性上目前还难以比肩wiki,而搜索入口又被baidu挟持,尽管用户可以通过其它搜索引擎定位互动的词条,但这对互动的良性发展是一个难以回避的问题。

3. 网站内嵌wiki功能是今后网络知识化、结构化的必然趋势。我们说wiki就是一个百科全书其实是有失偏颇的。因为它自诞生之时,并非专注于百科词条的编辑,它本身是一个开放的、供多人协同创作的超文本系统。因此,它除开现在大家熟知的多人协作的公共百科全书这个功能外,另外一个身份是:“允许一群用户通过简单的标记语言来创建、修改和连接一组网页的社会协作系统[参考]”。这个wiki系统属于一种知识的网络系统,允许用户在自由的对Wiki文本进行浏览、创建、更改,而且这种创建、更改、及发布的代价远比HTML文本小。针对后面这个特点,互动推出HDwiki正好顺应了协同合作的潮流与趋势,让个人网站、企业网站能在短时间内搭建好这样一个知识协同平台。在这样的平台中,我们无需绝对的权威性和专业性,而是需要拥有共同兴趣和爱好用户的广泛参与,以及交流协作。

个人对HDwiki以及wiki主站有如下建议:

1. 风格本土化。本土化wiki不仅仅意味着中文wiki操作更加方便,这当然也是要着重考虑的因素,相信HDwiki已经是目前开源支持中文wiki的最好系统之一。我个人认为:本土化就要适应目前中国的网民文化,也就是带些web2.0的分享,交流的特性,通俗的说就是娱乐互动的文化。

现在互联网应用还没有成为人们工作必需品,不像美国互联网应用第一位的依然是email,其次移动上网和SNS应用,而中国依然是IM,上网看新闻等应用。目前中国互联网还是娱乐为王的时代,观看视频,转帖分享等应用占主流地位,要让网民普遍合理使用wiki,用wiki进行知识管理分享积累肯定还需要一定的时间,需要一个从高端至中低端过渡的时期。这一点从我所做的小规模调研报告也可以看出,即使在IT领域依然还有不少人对wiki不是很了解,他们对贡献词条就更缺乏动力,因而在美国成功的wiki模式和自主贡献文化在中国尚未形成气候。

因此,不论互动wiki主站还是HDwiki

平台,都不能仅仅依靠wiki单纯的词条解释,还需要将社区、用户即使交流等方式引入wiki平台建设,让贡献词条的用户能够天然形成一个社区和小团体,方便的交流思想,利用大众的力量来积累和搜集知识。

我在发放调查问卷时,碰到一位独立blogger (http://www.10kn.com/baike-website/),他用HDwiki搭建的有限元分析的百科,他直接建议能否在HDWiki中加入增强互动的机制和方法,让浏览者可以直接提出建议和问题,帮助贡献者完善词条。我的理解是让HDWiki推出类似百科+知道的功能,百科用于知识沉淀积累,HDWiki已经做到了,知道用于用户实时交互问答,当交互问答形成规模时,百科词条就就形成雏形了。

2. HDWiki领域化。所谓领域化也就是除开互动主站维护大而全的百科知识,HDWiki应该专注于垂直领域的百科词条维护。为各类中小站点和个人blog推出可定制,可配置的HDWiki模板,符合专业领域特色。比如摄影类网站和医药类网站两个突出特点在于前者需要更多的多媒体展示空间,后者需要更为专业描述信息和文献信息。HDWiki应该可以方便的定制。

因为在整体质量不能与wikipedia抗衡的情况下,在专业领域,要深度挖掘和聚拢志同道合的用户,共同维护百科内容,这是提高词条质量很重要的一方面。中小网站需要思考如何聚拢感兴趣和有价值的用户,HDWiki可以帮助他们实现内容的专注、结构化,吸引更多用户参与,同时这些用户的加入又提升了网站在某一个领域的声誉和知名度,形成良性循环。

3.  词条通俗化,引用交叉化。在互动主站和HDWiki的内容上,要注重词条的简洁、通俗化,这也是用户向wiki提出的新需求。如果需要专业话学术化的解释,用户会更查询wikipidia,这一点由wikipia的非盈利本源决定,它的专业程度是其它任何wiki类网站都难以企及,因此,HDwiki和互动百度需要在词条的通俗、简洁上下功夫,把握用户的另一层次需求:最快时间获得最通俗易懂的解释。词条的通俗简洁特性可以通过HDWiki在编辑词条过程中供一定的便利措施来保证,比如1. 编辑时有在线翻译工具条,方便用户选取恰当翻译 2. 同义词提示功能,当用户在多个词拿不准时提示一些简洁通俗的替代词汇,等等。并且是否可以设计一定算法对一个庞大的词条解释抽取出不超过200-300个字的微wiki,作为该词条的摘要和简单版本。

于此同时,HDWiki可以通过增加词条间的相互引用,提升质量,对于同一个词条解释,文本内容中被链接的词汇越多,给用户形成更加专业和可信的感觉越强烈。这一点应该在用户心理学上有一定解释。因此,可以利用互动百科的庞大词库内容,引入文本的自动加链接机制,具体而言:当用户提交的一段信息文字后,HDWiki平台扫描这段信息,遇到互动百科中有过的解释直接添加引用链接,这对增加文本链接,提升用户体验有良好作用。同时,对于词条解释附录中的文献(引用)信息, 尽量推荐用户采用高PageRank的来源,也可以提升内容质量.

4. 推广手段多元化。建议互动利用twitter,开心网等SNS网站进行产品营销,在web2.0时代,如《参考消息》报业等传统行业都加入了多元推广的行列,像互动百科这样的互联网新兴企业也同样应该依托这种平台,直接与终端用户对话,发布第一手信息。目前互联网正在形成新的个人平台中心,原来由上至下的传统推广方式对个人用户的影响在逐渐降低,因此推广互动品牌要变成平等的相互交流,仅仅依靠官方的bbs是不够的。


[1]发放问卷50份左右,回收29份。调查问题请见:www.caicono.cn. 调查对象主要集中与IT、通信等科技行业,同时也有10人左右的非IT领域人群。此次调查受限于环境,虽然样本很小,但也能说明一定问题。

[2]词条质量(主观),附加服务(除开对词条的解释之外的附加价值),用户体验(词条格式、结构化程度、清晰度等),评价人数(是否对其有用的打分or dig),贡献人数(参与编辑):

google是败走麦城还是慷慨就义?

google要退出中国市场的事情想必大家都很清楚,事情的起因在于google受到来自大陆安全威胁,而普遍认为过度严格和畸形的审查制度也是google宣布要退出市场的重要原因。

在第一时间获得这个消息时我还没把他当做一回事,还怀疑其真实性。认为这次声明只不过是google发发牢骚而已,双方体谅些,都后退几步也就大事化小小事化了。本来具有中国特色审查制度在05年谷歌打算入主中国时就肯定考虑过,也不是一天两天的事情了。

但事情的进展告诉我,这一次远没有想象的简单。google似乎动真格的了,谷歌员工目前都收到解散mail,而网上也传言中国工程师已经被取消了连接代码服务器的权限,谷歌似乎准备全身而退。网友们还自发地去谷歌大厦前面献花,点蜡烛。

令我思考的是,google这次摊牌是考虑已久还是一时冲动之举?答案应该很明确,这个诺大的决定必然是经过高层的深思熟虑。那么google的退出是输在中国本土市场迟迟无法打开,只能紧跟本土搜索引擎百度屁股后跑的尴尬与羞辱使得它败走麦城,还是因为中国市场的运营策略与google原始理念,价值观格格不入,而不得不慷慨就义呢?

简单的说,我认为google的此番举动不仅仅关乎利润大小,而是更重视一贯的行事风格和价值理念。同时,这个巨大决定的背后,还有美国政府的推波助澜作用,那就是迫使中国信息领域更加开放,并限制一定的中国企业并购美国互联网公司。

我们可以看到,google中国虽然创造的价值远不及总部和其它地区,但中国网民庞大的市场规模也为它带来了年收益3亿美金(http://www.techweb.com.cn/news/2009-09-08/436133.shtml)左右。而且,谷歌份额和营业额在谷歌工程师和高层的努力下,正不断成长,扩大其影响。但这一部分的利润与全球收入相比,比例较小(2%),而且,更要命的是,这些微不足道的收入还与google自身核心价值观念相冲突,google全力维护的正常信息流被中国“本地法律制约”,七零八碎后的阉割信息流所产生的利润着实让google总部提不起继续运营的兴趣。因为,google最为核心的竞争力在于:利用一切技术手段确保信息正常流动,将能上网的一切数据都放在互联网上,为网民呈现一个应有尽有的信息世界。因此,我们可以享有google earth,观赏到街景,浏览到google图书,查询到scholar paper等等,这一切产品和项目都是为了更好的收集和展示数据信息。而google的安身立命之本搜索引擎,就是在这些海量的数据信息之上,当用户最需要的时候合理、有序地提供真实正确信息给用户,不参杂任何人为干扰因素,不屏蔽、不过滤,让有价值、有需求的信息最大程度的呈现出来,从而赢得所用互用的青睐。在这样的背景下,在中国市场上的种种审核屏蔽方式,显然与google不作恶(do not evil)的企业价值格格不入。

同时,我认为企业的价值观与当地某些法律法规相左时,一般企业都不会立马撤出所有服务,况且是在中国拥有极其庞大的用户群和潜在用户,拥有良好品牌声誉和潜在市场价值的情况下,企业天生的逐利性要求对这种撤离要保持冷静思考和权衡。因此,谷歌这次突然宣布退出中国,背后还有更深层次的原因。

我猜测,深层次原因在于(纯属猜测,证据不足):美国向来是世界经济头号老大,其它国家都为其马首是瞻。但近年来随着世界经济低迷,美国国内一些企业在出现业绩下滑,有些公司不堪重负,在资产重组时,频频被来自中国的企业所收购,有些还是百年老店,比如腾冲收购悍马,吉利收购沃尔沃,民企收购皮尔卡丹等等,这让美国很是不爽,民众和企业界都颇有微词。而且,中国收购趋势渐渐从制造业走向第一产业,工业,比如汽车产业,而且照此下去,甚至有可能在信息产业也产生巨大并购案。因此,美国政府这次授意google等一线互联网信息公司,适时向中国政府施压,作为应对今后收购案件的砝码:1. 要求中国政府信息更加公开透明 2. 可以借此拒绝未来的中国公司收购,因为收购后按当地法律,会严重影响信息的自由流动。

第二点纯属个人猜测,有些阴谋论的意思。金融时报有一篇老外撰写的文章也基本是这观点:google在经营不佳以及美政府授意下的强力退出,可以让美方在今后中美信息领域的并购案上占据主动地位。不过该文章现在找不到了。还有一篇类似结果分析的文章,请见:谷歌冲击波:中国在美企业面临严审

搭建独立blog记录

本blog最新域名: http://www.caicono.info

自从信产部着手严抓网络内容审核,严禁个人注册cn域名,加强网络监管以及境内域名备案审核制度以来,yo2的服务器就频频出问题,访问页面常常报错,bad request,或者503服务器错误。这让我下定决心将blog搬家,这也是独立blog从自然王国走向必然王国的必经之路。我也想熟悉一下mysql和虚拟主机的操作与运营,为今后进一步开展更大规模、撰写更为专业的主题blog做准备。
以下是我搭建blog过程中的手记,里面既有一些技巧捷径可供参考,也有一个个人的惨痛教训。下面一一道来:

update: http://www.free8.com  是一个不错的免费空间推荐网站,要之前找到这个网站就能省却不少劳心费力的尝试了。

1. 虚拟主机服务商选取

互联网时代有很多免费的午餐,blog存放空间既可以选择收费的,也可以选择国外免费的共享主机。

  • a). 首先我选择得是 :megabyet.net。
  • 注册之后它发给我一系列的主机注册相关信息,比如:

    Domain: caicono.cn.megabyet.net
    Username: caiconoc
    Password: *********

    Hosting Package: Free Hosting
    Server IP: 64.79.79.227
    Nameserver 1: ns1.megabyet.net
    Nameserver 2: ns2.megabyet.net

    FTP Hostname: www.caicono.cn.megabyet.net
    Webpage URL: http://www.caicono.cn.megabyet.net
    Control Panel: http://caicono.cn.megabyet.net/cpanel

    meegabyet的优点是注册迅捷,缺点是cpenal(控制虚拟主机的图形界面程序)版本较低,功能简单。而且申请的ftp不能即时生效,大约要过24小时才能连上它提供的服务空间。在这一点上,我耗费了大量时间来检测是否自己的ftp客户端有问题,ftp的设置是否正确等等。
    Read more…

    思考充分再行动 – python试水记

    这两天突发奇想觉得python脚本语言很简单,很实用,就一头扎入其中玩了几天,全然不顾还有一堆的工作等待我去crack。想起某人的话:“职业人与学生最大的差别在于兴趣的时候,是服从任务调遣还是内心。职业人只要有任务在身,deadline一旦设定就要努力向前,争取如期完成任务。而学生喜欢懒懒散散,尤其以兴趣来了为借口,东一榔头,西一榔头的瞎忙活,结果工期总是一推再推,比预计要花出多几倍的时间”。我目前就缺乏这种职业精神,原来做好的计划在变化和所谓兴趣面前烟消云散了。

    在这里记录一下关于python试水的心得和过程。一方面是python试水手记,另一方面由于自己失误,犯了个大错误,因此这篇blog这也是对自己的一个提醒:因为在开始一个程序调试之前,很重要的一个因素:外部接口的支持程度,没有考虑到,导致瞎忙活了一天多时间,最后还没完成原始目标。

    这两天在浏览时发现一个问题,有些pdf电子书没有做bookmark,不容易定位章节。网上有一个成熟的软件PdfBookmark可以根据一个xml文件生成pdf的书签。我就萌生用python写个脚本生成相应xml从而生成自己想要的书签的想法。

    以后浏览书籍的过程是这样:

    1. 浏览pdf书籍,手动记录章节和页码信息在一个excel或者txt文件中。

    2. 用python读取这个简单的txt文件并按照规则生成PdfBookmark所需xml

    3.用此xml更新pdf文件的bookmark

    很简单的任务和目标,可惜自己之前没有调研软件PdfBookmark是否支持中文书签,实验了它的英文example,觉得很不错,就赶紧动手了。下面是整个实验试水的一个记录。

     

    Setuptools 和 easyInstall的关系?

    CPAN PyPI distutils eggs package management

    setuptools是对python的package Index进行管理的工具,python工具包的后缀名都是.egg,需要专门的工具进行安装:easyInstall。

    .egg 是windows平台上的二进制文件,可以直接被程序easyInstall调用。

    目前的setuptools只能支持到python 2.6版本,而python3.1的setuptools没有官方版本。有网友开发出了可兼容python3的setuptools. http://regebro.wordpress.com/2009/02/01/setuptools-and-easy_install-for-python-3/

    文章同时指出,当前支持3.1的python库还不多。不过距离当时发表时间已经过去1年了,不知目前的python 3.1的package库支持能力如何,应该有极大的提高和长进。就在1月4号,pyhon官方发布了最新的一批文档,更新频率还是挺快的。

     

    lxm包的安装

    1. 去http://codespeak.net/lxml/ ,下载lxml包。最新版本2.2.4,09年11月11日发布。

    2. 然后根据instruction进行安装:http://codespeak.net/lxml/installation.html

    3. 在此之前有两个依赖包。先不管。

    4. 获取工具(也是基于python的一个功能模块)easy_install(Easy Install is a python module (easy_install) bundled with setuptools that lets you automatically download, build, install, and manage Python packages.)windows平台上,Pyhon 2.6版本会之间附带上easy_install.exe,但在3.1版本安装目录下,没有这个安装文件。而且,pyhon3.1没有easy_install工具。那么3.1如何安装更新包呢? 不解。

    找到一封邮件回复说明python3.1暂不支持lxml,我就不想再花费时间去找新的工具解决这个big problem了。

    Dov Reshef wrote:

    > I’m trying to install lxml 2.2.2 for python 3.1. (I’m using the egg for

    > python version 3, simply unpacking it to the site-packages folder). However,

    > when I try to use it in my code I get “ImportError: DLL load failed”, which

    > if I understand it correctly, means that it can’t find the etree.dll even

    > though it’s right there in my site-packages folder (etree.pyd).

    3.1 isn’t 3.0 compatible, I guess.

    We don’t currently have binary eggs for 3.1, sorry.

    5. 只能换到2.6平台,重新将上面的工作继续一遍.

    C:\Documents and Settings\Administrator>easy_install

    Easy_install 总是不能在其它目录下运行,明明将D:\Python26\Scripts;加入了path路径。后来发现D:\Python26\Scripts;必须在D:\Python26这个路径之后,系统才能将其识别。(这也是一个诡异的现象)

    下载lxml-2.2.4-py2.4-win32.egg,然后运行安装程序:

    C:\Documents and Settings\Administrator>easy_install C:\lxml-2.2.4-py2.4-win32.egg

    终于将lxml装入python2.6的库中。

    在文件夹:D:\Python26\Lib\site-packages 可以看到新增了lxml-2.2.4-py2.4-win32.egg文件夹以及一些新的文件。

    在python 2.6运行cmd中,终于可以import lxml了

    Python3中依然不能导入lxml,因为目前无法安装。

    中文在读写xml文档中的问题

    因为在写入中文时出现错误:

    name = etree.SubElement(bookmark,’Name’)

    name.text = “”+item[0]

    ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes

    读取中文txt文件需要指定编码方式,否则open函数不知如何对字节进行解码为相应的字符。

    发现windows平台上python默认的编码格式为:cp936,使用下面这个方法得到:

    print(locale.getpreferredencoding())

    在我的IDLE编辑器中,第一行有一句注释:# -*- coding: cp936 -*-

    这个好像就是将.py文本的编码格式设定为cp936。让解释器对.py文件解释时识别其中的非ascii字符。我将其改成utf-8, getpreferredencoding输出的依然是cp936。

    因为python2.6不支持open(‘’,encoding=’utf-8’)的语法,只好采用codecs包的open方法,但是用utf-8编码方式入读中文文件依然出现error。

    import codecs

    book_file = codecs.open(‘bookmark-logic.txt’,'r’)

    File “D:\Python26\lib\encodings\utf_8.py”, line 16, in decode

    return codecs.utf_8_decode(input, errors, True)

    UnicodeDecodeError: ‘utf8′ codec can’t decode bytes in position 0-1: invalid data

    此时很明显是因为输入文件就不是用utf-8方式编码的。解决方法,用记事本将输入文件改成utf-8编码保存后即可。

    但是又出现新问题,生成的文档无法正常显示中文。这是为何??当时以为问题肯定出在这一句:

    中文显示有问题的xml片段

    name.text = item[0]

    item的编码方式是utf-8,直接赋值给text,text可能会是unicode或者原始字符类型str,不一样。为何显示出来的unicode会是这种编码形式呢?

    text type is: <type ‘unicode’>

    text type is: <type ’str’>

    item type is: <type ‘unicode’>

    经过找寻,发现不是name.text = item[0]的问题,而是在etree.tostring(root, encoding=’utf-8′, pretty_print=True) 少了对encoding的设置。设置后即可。

    对item中的中文进行utf-8编码或者utf-8的解码均有问题,因为item[0]本身是unicode对象,不能再进行encode,但第二种情况,decode为何出现ordinal not in range(128) 的error??

    Unicode编码与实际内容:

    中文 46 1

    基本原理 48 2

    2.huise didai 53 2

    unicode编码之后的实际字符为:

    [u'\ufeff\u4e2d\u6587\t46\t1\r', u'\u57fa\u672c\u539f\u7406\t48\t2\r', u'2.huise didai\t53\t2\r', u'']

    在读入每一行字符后,用re.splite(‘\t’)函数得到具体内容,但是最后一个单词后面会跟一个看不见的\r\t, 而显示出来为&#13;并且换行。我在如何读取时不读入这个符号这个问题上困扰了很久。最后发现可以之间将其去除..

    <level>2&#13;

    </level>

    后来发现直接调用string的方法:(string.strip())即可去除这个换行符。

    题外话,

    在这一次python3转2.6的过程中,发现语法差异还是不小:

    比如2中不支持: #print(‘list display:{} {};’.format(count,item))

    在3之前的版本,print都不是一个函数。

    总结

    到此为止,这个脚本基本能够搞定最初提出的生成相应xml的任务。可惜后来发现PdfBookmark无法识别unicode,还给他们公司发信询问了相关情况,确实目前版本不支持unicode,中文书签没法应用。这一次的任务无果而终,唯一收获是熟悉了python的相关细节如文件操作,xml解析等,并得到一个教训:做任务前要三思,考虑全面后方可行动!

    马太效应中的个人影响力

    这是一个个人影响力空前的时代,这也是一个人微言轻信息泛滥的时代。个人影响力在这个时代由于网络的出现,信息交流的充分,体现出强烈的马太效应:影响力强的人越来越有地位并影响他人,而大多数人则无法体现个人影响力。

    本文主要想探讨个人影响力对他人的影响,以及其增强、减弱的马太效应,而宏观历史坐标中,对社会的影响力不做讨论。何谓影响力,影响力小到可以是:影响他人在看待问题的观点、角度、立场,大到影响个人决策、价值观的确定,是一种看不见但感受得到的势力场。我们从小到大或多或少受到各种人的影响,他们帮助我们建立了思想体系,塑造了今天的我们。从时间维度而言,个人影响力符合马太效应,有些人的影响力被极大增强,而绝大多数人的影响力却微乎其微,而未来个人影响力将随着网络信息交流的便捷和充分,更加深化和加强这种关系

    首先,随着信息交流的便捷,个人影响力通过信息的广泛和充分的交换流通,得到了一定程度的增强。古代的个人影响力受限于传播媒介的狭窄,或者由来自朝廷自上而下的行政干预或君主权威形成,或者通过在民间的办学讲课,著书立说,在书生门第之间广播远名,影响他人。近代随着科技的发达,个人影响力从早期的口碑营销,口口相传扩展至书籍报刊上思维的碰撞,启迪大众,影响他人。比如大革命中振臂一呼应者云集的孙文,他主宰和推动了中国的进程,也影响了一大批进步青年为革命前仆后继。比如传播先进理念、为民主、科学的社会奋斗终身的胡适。而到了现代,计算机网络革命开创了一种新的知识传播方式,改水平逐级获取信息,变成与作者的垂直对话和交互创作,这也间接促成了一些传统模式下无法体现有效个人影响力的人们空前强大的影响。比如关注民生,思维成长的pongda,比如互联网的意见领袖keso,比如赛车界、写作届的双料新科韩寒。也许在过去我们只有置身于这个行业,这个领域,才能熟悉和了解他们,但现在信息的充分交换和无处不在随手可得的信息获取机制,让我们很容易受到这些民间领袖意见的影响。在出现各类大事需要我们评论时,我们会不时看看这些风向标的意见,做到不要太过背离“主流”,尽管这是比较无脑子和脑残的行为。

    然而,信息交流便捷的同时,过度泛滥的信息又削弱了个人影响。因为大家现在都可以出声,都可以发表言论和评述,这虽然不是普遍意义上的言论自由,但在网络阵营中,人人都可以随意表达观点,舞文弄墨倒是一定的。这会导致两个现象的发生:1. 自说自话,各类信息和观点泛滥成灾。2. 哗众取宠,错把公众领域当死人舞台。第一个现象是资讯高度发达、传播成本极大降低的必然产物。我们都知道,当生产过剩时,物资(在此处就是信息、观点)的价值必然下降。这在当代网络生活中得到了加强:各类资讯到处都是,人人一套的理论观点五花八门,那么其中有价值、深刻的信息必然被稀释,而网络总体信息价值被拉低。而第二个现象其实是第一个现象的极端化加强表现:正因为人们的话语权增加,谁都可以发表观点导致信息无所不在和泛滥,有些人就不甘被埋没在这信息海洋中,要出人头地引起他人重视的朴素想法下,在无才无专业背景下他们剑走偏锋,也就成为了网络的宠儿,现实中的小丑。这两种现象都不同程度的消弱了个人对他人的影响,前者导致有价值的内容被埋没,公众陷于无所适从的尴尬境地。后者析构了传统经典,让一切呈现娱乐化和小丑化,这都谈不上任何个人影响力。

    但是,尽管过度的信息泛滥化导致个人影响的削弱,但有些人还是能脱颖而出。好比音乐领域中,在初始混乱的各类音色里,随着时间推移,他们逐渐会慢慢趋同到某一个谐振音色,这个音色最为好听。这是一个从混沌到统一的过程,之后又产生随机变化导致不一致,周而复始。这些能脱颖而出的人就是众多信息发布源中出色的谐音,他们凭借在某个领域独树一帜的专业深度,为自己打造了深刻的个人影响力。比如:科普领域的冉冉新星:科学松树会,历史领域的当年明月,思维认知领域的ponda,关注个人成长提高的褪墨…他们就是从众多音色里逐渐大浪淘沙趋于谐振的最美音色。信息时代造就了大量知识英雄,也产生了无数个人意见领袖,但他们的数量毕竟是少数,而且他们的产生不是规模化、批量化的粗加工,而是通过精深的专业技能和某一个领域的专注背景他们才能独占鳌头,影响一方。我们若想成就个人影响力,不是依靠呀呀学语,随心所欲的发表意见观点就能达成,需要努力专注一个领域,成为领域Top时,无形的个人影响力也许就自然而然的形成了。

    P.S. 参加PLOGit 的活动所写的文章,里面还需要关键字windows7和HP ,windows7至今没用上,因为目前hp本上的信息太重要了,不敢有任何闪失,等我忙过这一段后再考虑换操作系统吧,这侧面凸显了目前信息转移成本的高昂。

    新年第一跑 暨测试live Writer客户端

    caicono 标签:

    从live writer上发布的第一篇日志。

    1.1  4km 放松跑 不计时

    和一位头戴红色牛仔帽的跑者共同完成了10圈,他前我后,一路追赶未遂。完事后有些疲惫,这一段锻炼得没有规律,心肺快根不上这种快节奏的运动了。

    1.2  4km 放松跑 不计时

    新年伊始,我连续两天都去操场跑了4公里,为今年开了一个不错的头。

    今天北京还下起了纷飞小雪,上午出门时才发现京城又铺上了白雪皑皑的冬装。一路小跑,路面上留下了歪歪扭扭的脚印。bupt的操场自然又是大门紧锁,无奈之下我转入师大冬操开跑。

    无论何时来师大,你总能发现不少跑步爱好者,与你一起前行。这是我喜欢来师大跑步的一个主要原因,另外一个是这边的体育活动层出不穷,能让你感受到校园的活力。而相比之下bupt也许理工科味道太重,大家都被实验工程压的没有时间锻炼,跑者寥寥,也大多活动得没有规律,而且锻炼的主体都是一些中年人,

    第一圈过后我就完成了热身,并且发现下雪天反而没有那么冷。不像前天我呼着寒冷的空气,清鼻涕都快被冻住了,全程下来完全不敢脱外套。而今天我中途都是穿着毛衣完成的,还丝毫不觉得冷。跑步过程中,我依然思考了一些问题,这是我最为enjoy的时刻,聆听自己节奏的同时,还能静静的思考,没有人来督促你,没有人来打断你。

    1. 测试地图添加功能:只支持微软自己的virtual地图,不专业也不精确。

    地图图片

    2.测试图片添加功能。可以自动拖拽大小,选择本地图片,此功能不错。

    陈才-生活照

    2009年的我 – 可惜没有在欧洲大陆留下跑步的足迹。下次再战!

    update:

    1. writer 无法获取blog上的标签接口,不能对标签进行编辑

    2. 发布速度很慢.第一次发布至少持续1分钟,这也许与blog中有两个图片元素有关.

    2010年年度计划

    尽管我是一个爱做计划的人,但是经常无法有效履行计划。但是我依然决定将其列举出来。时刻提醒2010年的自己,21世纪的第一个十年我能否有一个漂亮的ending呢,就看自己的努力了。

    • 1. 发够paper,攒劲毕业。
    • 2. 找寻到一份合适的工作,开始自食其力的打拼。
    • 3. 如果上述事情顺利,则要好好考虑个人大事了,呵呵,虽然这个我一直在好好考虑。
    • 4. 出去度假一次,最好家人一起。
    • 5. 完成新的一次马拉松,年训练量700km+。
    • 6. 技术上学习python和ajax技术,个人爱好而已。
    • 7. 坚持写blog,锻炼思维和写作。
    • 8. 阅读书籍后总结,笔记,update至douban,N>=20

    这已经很多了,够我拼命向前努力一整年的。将这些目标写于此,是对自己的激励,也欢迎大家监督。希望能提高自己的执行力,顺利拿下这些任务。