Friday, June 13, 2008

不能做恶


原本,费城才是美国的首都,后来成了沽名钓誉的华盛顿……细节不提。


我个人很喜欢费城,旧议会大厦、国会博物馆,林林总总,历史沧桑,尽收眼底.费城是希腊语,意思是兄弟般的爱,由贵格教徒最早筑城,是非常非常嫉恶如仇的。


读者可能说了,Google和费城有个蛋关系?这可要从一个部署在费城的神秘服务器说起。


Google为中国政府版本部署了防火墙,在中国google和美国google之间建立了一道钢铁长城。


注意,这和那臭名昭著的GFW可不是一回事。这个防火墙是带ALG和4层以上DPI的。


ALG是应用层网关,广义上讲,是分析协议命令的。同时,也可以屏蔽NATs的参数。


比方说,你发命令说,送这个灾区孩子到青海!这是老大的命令;而送孩子这件事情,老大可不会亲自去,而是别人,承载负责人,也就是运输队,去了青海。ALG就是负责命令和具体的承办之间的桥梁。


也就是说,ALG和Google的具体应用程序息息相关,因为相关的命令是为应用特殊定制的。
DPI,指的是在协议的基础上对承载数据进行相关性分析的技术,英文是Deeper Packet Inspection,目前很火的技术,有感兴趣的可以探讨探讨。简单说,DPI在协议数据的相关性方面起了重要作用。


一般来说,你去邮局送信,那么你得先找到你家附近的邮局,在网络看来,这是三层功能-路由功能。而找到距离你家最近的邮局,可就是4层或者以上,我们一般叫4-7层应用了,因为这和邮局没有直接关系,这需要你查地图,然后用尺子量,看看到底哪个最近。


你跑腿去邮局、还是骑车、或者开车,在去邮局的路上你会不会迷路,会不会摔倒,会不会干脆碰到地震导致你到不了邮局,这都是3层以下的功能了。


这没什么不好理解的,只不过就是一个编号一样,就好比你家在西长安街5号,你非要问,为什么是5号而不是6号一样无聊。


DPI就作了这些纵深的监视工作。以保证这条链路是通畅和合法的。


另外,更重要的是,DPI在多个纵深的链路之间建立了逻辑关系,那么只有逻辑合理的纵深链路才可以通过我的防火墙。--逻辑合理的定义是,比如你去上厕所,那么你肯定要去卫生间,如果你发现一哥们发了上厕所的命令,却本客厅而去,那么肯定出了问题了,有人非法入侵了。于是你得干掉这个链路。


这就是DPI的NB之处了,当然,也是弊病的温床了


至于其他具体技术细节,由于时间久远,不太记得了,所以不敢多写。总之,意思就是说,除了普通的URL过滤之外,还有一些基于内容的过滤和分析,碰到了敏感的玩艺儿,禁止掉。


我想,写到这里,技术人员应该明白为什么google长城和GFW是有区别的了。


在Google设置了这个墙以外,没想到设立在费城的一个大型服务器被中国屏蔽了。你知道,屏蔽服务器,就意味着金钱的损失。


与此同时,其他的服务器也纷纷告状,中国的用户不能访问了。


金钱的损失导致了商人们的疯狂。按照美国惯例,参议员们就开始口若悬河、滔滔不绝了。


参议员们诘问说,你们从费城的法典中赚取了你们的座右铭:不要做恶,但为什么帮助中国人建造这种作恶多端的数据屏蔽?你居心何在?你这种企业有何脸面在世间运作?


参议员一席话说得Google面红耳赤,不能回答。google强辩说,我们做国际化业务,必须要遵守人家本地的法律,对不?有什么问题?


炒来炒去,最后说话的还是股票。股票跌了,Gooogle就开放,被中国干掉;股票不跌,Google就封闭,中国绕了它。就这么折腾来折腾去的闹腾。


最后,股票稳定了,于是Google也就消停了。


总之,在商业看来,金钱才是老大,意识形态是附属的,也就是说,是跨越国界的。西方人称之为资本的自由。


这就是Google所面临的国际化问题之一:法律。


在中国以后,Google又在东欧、朝鲜、古巴。。。总之把,大部分都是这种社会主义哥们国家。。。碰到了类似的问题。


除了防火墙之外,一些国家,比如穆斯林国家,他们更是特殊要求内容的本地化,古兰经的神圣化,不可存取性。。。等等。。。等等。。。这是人家法律的要求,于是Google又不得不面临技术上的挑战:
自治的联邦网络体系怎么走??


采用和松散的多入口?还是紧凑的单入口的技术……

怎么办???


且听下回分解。

Labels:

Google的生蛆原理(Google构架之四)

续前(《自建内容的Google(Google架构之三)

作者:Paul Wang

在法律上合法以后,Google就开始了技术设计。

这地儿技术人员太少,所以我不做更深入的探讨,只描述个大概。

前面说了,有个WEB的监视设备,那么下一步就是对web的内容进行剖析,分解,和分布。

在设定web剖析的策略之前,我们需要明确我们要剖析什么?

比如,一段Video,其中有萨朗私通不穿内裤接受询问的镜头,我想看,能找到不?

对不起,google的回答是:不能。

ok。我是一个音乐迷,我无意中听了一歌,唱到,“。。。欺骗之后的疲惫。。。”,别的嘛也不知,那么我想找到这首歌,行吗?

对不起,google的回答是:不能。但是,google可以让你搜索歌词库,然后找到歌名。

这就明白了,google的搜索是基于文本的,而不是流媒体--就是指音频、视频等。

其实,流媒体搜索是很复杂的事情,其复杂性不在技术上,而在于商业模式,无法统一,也无法实施。至于技术方面,早就风行世界的mpeg-7,mpeg-21标准,很容易就可以保证流媒体的可搜索性。

按布林的说法,当时google如此决定完全是因为成本的原因:他不可能有钱做流媒体搜索。

分析完文本之后,google将数据结果打包分类分布,他们用术语数据Barrel来形容,就是数据筒,每个桶里都放着打包分类的数据。以加快搜索相应速度。

除此之外,完全依赖于操作系统本身自带的输入输出系统,无法做到高效率,于是Google又开发了基于磁盘数据影射的搜索方式,绕过操作系统,直接搜索。这也并不困难,无法就是缓冲磁盘阵列,然后进行代码的模式匹配-就好比你拿个筛子,合适尺寸的走,不合适的留。

为了相应更高端的搜索要求,他们又做了仿射-也就是说,可以通过不同的途径找到同一的内容。这个更是简单,如果你学过比较好的数学的话。

在这些基本的架构思想敲定后,google开始了服务器的布置,并实现了冗余部署。这个很重要,冗余是保证效率的关键,其目的很简单:让最需要的人在最快的时间内存取最需要的数据。

就这么简单。

为了管理冗余和分布式部署,google开发了全球的文件系统,每一个节点可以mount,也可以卸掉ummont-就好比是需要的时候上车,不需要的时候下车。

这就是google的生蛆原理。不动声色的监视、蠕动、繁殖和分布。

技术上OK就可以了?就可以赚钱了?

可笑!记住,这世界,想赚钱,你得先有钱,所有那些记者们写的如何白手起家的故事都是编排给穷人看的,好让他们有了生活的希望。

要玩钱了,这时候,拉姆·西里亚姆就出马了,这个天才的不折不扣的王八蛋该演戏了。

于是,演出正式开始了。

...to be continued

相关:关于Google的五个“啊呸”
老二永远为老大服务--关于Google架构的前言
像蛆一样蠕动(Google架构之一)
Google还没起飞就会夭折么(Google架构之二) 自建内容的Google(Google架构之三)
Labels:

你为什么不试试树杈?

按照很多学者的说法,女性心理中很强大的趋同意识是来自于她们不希望也不喜欢自我开放、精神自由的体验。

我不是女人,对此不能肯定。但男人却是绝对完全相反的---(也许如今的小男孩们不这样了,不晓得)。

到底是不是如此呢?

不过,从大街上女人们的装饰风格的趋同化来看的话,这些学者们还是很正确的。

这不,今年夏天,我突然发现一大群女人们拎包的姿势变了,他们中的很多不再用手拎包了,转而用臂弯,把包跨在里边,然后小臂向前突出,走路的时候,保持一个基本固定的角度。从远处看,仿佛树杈。

如果这位腰很粗,那么就是一大树树杈;

如果这位腰很细,那么就是一小树树杈;

如果这位臂很长,那么就是一长树杈;

如果这位臂很短,那么就是一短树杈;

……

帖子正写道这里,办公室一妹妹走过我面前,不怀好意的对我说,

“呦~~呦~~~想老婆呢??~~~怎么脸色有桃花呀?”

我也不含糊,斩钉截铁的说,“……肯定不是想你!!!”

说罢,这位也懒得搭理我,哼了一声,扬长而去,我下意识的抬头望去,

哦!上帝!……树杈!

Labels: