Monthly Archive for June, 2007

一张组合软盘片

整理旧物总能给自己带来一些惊喜,如找到一些早已忘记却有趣的事物。临近毕业,把一些不用的书翻出来,准备扔掉或卖掉。突然在一本书后发现粘着一张黑色的园盘。看了半晌,终于想起来,这是04年观察金星凌日时用的滤光膜。

如下图,根据牧夫上的说明制成,用了三张软盘。两张完整的,中间的空洞则用第三张剪出的小块填补,各处都用透明胶或双面胶固定好(漏光是很可怕的事情,搞不好会造成失明)。效果虽然比专业的滤光镜,滤光膜差了不少,却也够用了。

disc

彼时,将它贴在我的双筒前,指向太阳,视野内一片红色,太阳则成了一个不刺眼的橙色光球。临近预报中的凌初时刻,果然看见一个小黑点缓缓进入太阳的那片光亮中。激动,两百多年才两次的奇观啊,能赶上,而且是两次(下次在2012年,再下次就一百多年后了),也算不虚此生了。

这么有纪念意义的物品当然是要收藏的,不是为了下次使用,下次应该有钱买不错的滤光膜了,不过也就少了一份自己动手的乐趣。

关于Google的PageRank的一篇翻译

学校要求的,用于毕业的,不少于 5000 字的翻译。多次搜索和挑选,最终选择了这篇 How Google Finds Your Needle in the Web’s Haystack(Google 如何在网络的干草堆中找到你的针)。因为对 Google 的算法感兴趣,跟数学有关,而文中的矩阵运算又不难。由于时间不是很多,后面的比较快,翻译得不怎么好。原文

因为太长,而且很多公式,一个个贴图麻烦,所以这里只有少部分内容,制作了一个全文的 pdf,下载

大多数的搜索引擎,包括 Google,不断地运行着取回来自网络的页面,索引每份文件中的单词,并以一种高效的格式储存这份数据的一支电脑程序的队伍。每当用户使用一个搜索短语,例如“搜索引擎”,请求一次网络搜索,搜索引擎找出网络上含有搜索短语中单词的所有网页。(也许相关的信息,如单词“搜索与“引擎”之间的距离也会被注意到。)现在的问题是:Google现在宣称索引了 250 亿张网页。网页中大概 95% 的文字仅仅由10,000 个单词写作而成。这意味着,对大部分搜索引擎,将会有巨大数量的页面包含搜寻短语中的单词。需要一种根据符合搜索条件的页面的重要性排名的方法,使网页能够按照最重要的页面排在列表的最上面的规则排列。

Google 的 PageRank 算法评定网页重要性时,没有基于内容的人工评估。事实上,Google 觉得它的服务价值很大程度上在于它对搜索查询提供无偏见结果的能力;Google 宣称:“我们软件的核心是 PageRank。”我们将会看到,诀窍是使网络自身根据页面的重要性排名。

谁重要

由 PageRank 的创造者 Sergey Brin 和 Lawrence Page 提出的一个基本想法是:页面的重要性由链接至它的页面数量以及这些页面的重要性决定。我们将会赋予每个网页P一个度量其重要性的 I(P),叫做该页面的 PageRank。

这里是 PageRank 如何产生的。设页面 Pjlj 个链接。如果其中有一个链接指向页面 Pi,则 Pj 会传递它重要性的 1/ljPiPi 的重要性排名则是所有链接接到它的页面贡献值之和。也就是,如果我们用 Bi 表示链接到 Pi 的页面集合,则

sigma pic

这可能会让你想起鸡和蛋:要决定一个页面的重要性,我们需要先知道所有链接到它的页面的重要性。然而,我们可以把这个问题转换为一个更加数学化相似的问题。

……(太多了懒得复制,而且我没有使用所见即所得编辑器,逐个标签地控制格式也是件很麻烦的事,想看全文的请下载 pdf 或到源地址读原文)