•
sorter
英:【sɔ:tə】美:【sɔ:tə】
英:
美:
n.
分类程序, 分类机, 整理者
1 、Its a poor sort of memory that only work backwards.───只会向后作用的记忆力可就差劲了。
2 、What sort of medicine do you take?───你吃的是什么药?
3 、Lets leave the two of them to sort themselves out.───咱们让他们俩自己把相互间的误解好好澄清一下吧。
4 、What sort of car would you like to hire?───你想租那一类的车?
5 、No, actually, that sort of thing isnt for me.───不,实际上,那种事不合我的口味。
6 、She never meant anything of the sort.───她决没有那种意思。
7 、Shes not such a bad sort.───她不是这样坏的人。
8 、Dont spend your time writing this sort of squibs.───不要花时间写这类的讽刺短文了。
9 、Your act doesnt sort ill with your status.───你的行为不太符合你的身份。
10 、Hes not he sort of man to be trusted.───他不是一个可信赖的人。
11 、He led off with his companion in a sort of quick-step.───他和他的舞伴带头跳一种快步舞。
12 、He protested that he had no views of that sort.───他分辩说,他没有这种看法。
13 、What sort of classic the concert will have tonight?───今晚音乐会上将有哪种古典音乐?
14 、What soup do you have? What sort of soup is there?───你们有些什么汤?
15 、Id need a cell
sorter
to get really get a look.─── 我需要用细胞分选仪仔细看看
16 、The illiberality of parents, in allowance towards their children, is an harmful error; makes them base; acquaints them with shifts; makes them sort with mean company; and makes them surfeit more when they come to plenty.───在子女小时不应对他们过于苛吝。否则会使他们变得卑贱,甚至投机取巧,以至堕入下流,即使后来有了财富时也不会正当利用。
17 、He do not want any special sort.───他不想要任何特别种类的。
18 、Hes the sort of man whom setbacks weigh very heavily.───他是那种碰到挫折就万分苦恼的人。
19 、Hes not the sort of man who would go back on his word.───他不是那种会食言的人。
20 、What sort of food do you like best?───你最喜欢吃什么样的食物?
21 、He is in essence a reclusive sort.───他本质上具有一种隐士的气质
22 、"She is very unhappy, and-and that sort of thing, " Jose urged.───乔斯怂恿地说:"她可怜得很呢,还有-还有许多其他倒霉的事情。
23 、That sort of work wants a lot of patience.───做这样工作需要很大的耐心。
24 、He is a downright sort of person.───他是那种直爽的人。
25 、A card stacker in card
sorter
.───卡片分类机中的一种接卡箱。
26 、Hes a real good sort.───他是个性情很温和的人。
27 、All of his relations were a sort of Royal Family.───他的家族都是皇亲国戚。
28 、David, in his secret heart, had visions of a sort of sublimated summer resort.───大卫在他心里设想著一个类似理想的避暑地。
29 、He is sort of, er, in low spirits.───他有点儿,呃,精神不振。
30 、Hes the sort of person I really dislike.───他这种人我真不喜欢。
31 、She never immersed herself in that sort of trivia.───她从来不沉湎于往日琐事。
32 、A veterinary surgeon is a doctor of a sort.───兽医是一个一般的医生行当。
33 、No buyers can buy this sort of product.───任何买主都不能购买这种产品。
34 、Hes the sort of person who would pull the wings off a fly just for kicks.───他就是那种人,会把的苍蝇的翅膀拉下来逗人玩。
35 、She hardly ever hit any sort of mark.───他几乎从来没有打中过什么目标。
36 、Most people know a sort of puzzle called rebus.───大多数人都知道有一种称为画谜的猜谜。
37 、He had a sort of instinctive chivalry in him.───在他身上有一种天生的骑士精神。
38 、Hes a bit tight with his money; definitely not the sort of man you can touch for a few bob.───他对钱有点吝啬,你肯定不能从他这种人那里讨到钱的。
39 、He is a sort of person who doesnt care two hoots what other people think.───他就是一个别人怎么想他毫不在乎的那种人。
40 、They seemed to love the land and the people with a sort of fierce egoism.───他们似乎是带著强烈的利己主义来爱这里的人和土地的。
41 、Dont worry about price-Im sure we can come to some sort of arrangement.───别担心价格——我敢肯定我们能够达成某种协议。
42 、Hes pulling some sort of trick.───他不定在耍什麽花招。
43 、What sort of people does he think we are?───他把我们看成什么样的人了?
44 、It seems to be a nasty sort of day,is not it?───似乎天气恶劣,对吧?
45 、"What sort of a noise?" asked the cook.───“那是什么样的响声?”厨娘问道。
46 、Theres some sort of sticky fluid on the kitchen floor.───厨房的地上有一种发黏的液体。
47 、You need a professional to sort out your finances .───你需要专业人士替你管理财务。
48 、He is not the sort of person ever to draw back.───他不是逃避责任的那种人。
49 、That sort of life style has come to stay whether you approve of it or not.───不管你赞成与否,那种生活方式已成为时尚。
50 、What sort of book do you want?───你要哪一类的书?
51 、The duchess sang a sort of lullaby to the baby.───公爵夫人对孩子唱了一首催眠曲一样的歌子。
52 、We must sort out the good apples from the bad.───咱们得把好苹果拣出来,同坏的分开。
53 、Hes a friendly chatty sort of person.───他这个人挺和善,很爱讲话。
54 、Dad seemed to take your going sort of hard.───你父亲看来非常舍不得离开你。
55 、It is necessary that he (should) sort out the information for my reference.───他有必要整理些资料供我参考。
56 、What sort of books is most popular?───什么书最流行?
57 、He had such a funny friendly sort of face.───他的面孔是那么和善有趣。
58 、We have a private job to revamp their viticulture technology with selective harvesters and optical
sorter
s.─── 我们接了私活儿 去帮他们改造收割机和光照拣选机 以改进他们的葡萄栽培技术
59 、Do you mean you still have some other sort of room?───你是说还有其他样子的房间吗?
60 、He is an unapproachable sort of person.───他是个不易亲近的人。
61 、Can you sort me out on how to write this preface?───你能对怎样写这个前言给我提点建议吗?
62 、Lets sort the names alphabetically.───咱们把名字按字母顺序归类。
63 、Their lukewarm welcome gave me an all-over sort of feeling.───他们不冷不热的欢迎使我觉得浑身不舒服。
64 、He appeared to be in a spasmodic sort of hurry.───他那副样子好象非常匆促似的。
65 、You may find this sort of job rather difficult.───你会感到这种工作相当难做。
66 、You must stop, and at once, this sort of behaviour.───你必须而且马上停止这种行为。
67 、I wonder what sort of a bargain youll make.───不知道你想卖个啥价钱。
68 、What sort of qualifications do you need for the job?───做这项工作需要什么资格?
69 、Hes not the sort of man you can put one over on.───他可不是能用花言巧语打动的人。
70 、Shes a happy-go-lucky sort.───她是个乐天派。
71 、In another year, Wilma could manage a sort of hop.───又过了一年,威尔玛好容易才能够单足蹦跳。
72 、Poison of some sort must be operating in her.───一定有什么毒素在对她起作用。
73 、People have propose all sort of hypotheses to explain why dinosaur have become extinct.───人们提出种种假设,试图说明恐龙为什么会灭绝。
74 、What sort of play do you like best?───你最喜欢哪种戏剧?
75 、They served coffee of a sort.───他们供应的咖啡很差。
76 、He is a very active sort of person and cannot bear to see others idling about.───他是那种积极肯干的人,看不惯别人懒懒散散。
77 、Let me put on my thinking cap, sir. When you first told me that you wanted to make a sort of offer to me? Now let me think.───先生,让我仔细想想, ... 你什么时候第一次对我说,你有件事跟我商量?让我想想看。
78 、She is a very domestic sort of woman.───她是个十足的家庭妇女。
79 、He is the most suitable sort of salesman.───他就是那种最合适的推销员。
80 、Cant you sort the good from the bad?───你难道不会区分好坏吗?
81 、The husband and wife were having words of a sort.───夫妻俩正在吵架。
82 、Shes the sort of woman who lives for others.───她是一心为别人着想的人。
求这些产品得英文名称
共享器 sharing device
光标阅卷机 cursor paper reader
光端机 optical terminal device
光端机 同上
光盘库 disc warehouse
光盘销毁机 disc earse/demolish device
** anti-radar speedmeter
防盗报警 anti-theft alarm
防毒及邮件过滤 antivirous and email filrtater/sorter
防辐射产品 anti-radioative products/product
防静电地板 anti-static floor
防雷产品 anti-thunder product/products
防水墙 waterproof wall
复用器 duplicater
覆膜机 film/pellicle cover
多媒体硬盘播放 multi-media harddisk player
多屏显示 multi-display
多屏显示 multi-display
常用的搜索引擎有哪些
索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。
搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。
早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。
人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。
这其实是最原始的方式,只适用于因特网信息并不多的时候。
随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。
这就是现在搜索引擎的原型。
随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。
现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。
以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。
然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。
例如,搜索“电脑”这个词汇,就可能有数百万页的结果。
这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。
这就是使搜索引擎搜索结果多而杂的原因。
而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。
这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。
Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。
这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。
我们可以从://google.stanford.edu/ 下载。
设计搜索引擎是一项富有挑战性的工作。
搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。
而且每天要回答成千上万个查询。
在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。
此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。
本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。
除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。
本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。
任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本 *** ,也是本文要关注的问题。
关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。
Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。
人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。
大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。
基于关键词的自动搜索引擎通常返回太多的低质量的匹配。
使问题更遭的是,一些**为了赢得人们的关注想方设法误导自动搜索引擎。
我们建立了一个大型搜索引擎解决了现有系统中的很多问题。
应用超文本结构,大大提高了查询质量。
我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。
1.1网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。
1994年,第一个Web搜索引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。
到1994年11月,顶级的搜索引擎声称可以检索到2‘000’000(WebCrawler)至100‘000’000个网络文件(来自 Search Engine Watch)。
可以预见到2000年,可检索到的网页将超过1‘000’000‘000。
同时,搜索引擎的访问量也会以惊人的速度增长。
在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。
在1997年11月,Altavista 声称它每天要处理大约20’000’000个查询。
随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。
我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。
1.2 Google:跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。
抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。
存储索引和文档的空间必须足够大。
索引系统必须能够有效地处理上千亿的数据。
处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。
随着Web的不断增长,这些任务变得越来越艰巨。
然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。
还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。
在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。
Google的设计能够很好的升级处理海量数据集。
它能够有效地利用存储空间来存储索引。
优化的数据结构能够快速有效地存取(参考4.2节)。
进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。
对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。
1. 3设计目标 1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。
1994年,有人认为建立全搜索索引(a plete search index)可以使查找任何数据都变得容易。
根据Best of the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。
然而1997年的Web就迥然不同。
近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。
用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。
实际上,到1997年11月为止,四大商业搜索引擎中只 有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。
导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。
用户仍然只希望看前面几十个搜索结果。
因此,当 *** 增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。
由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。
高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。
令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 。
尤其是链接结构和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。
Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。
1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。
1993年,只有1.5%的Web服务是来自域名。
到1997年,超过了60%。
同时,搜索引擎从学术领域走进商业。
到现在大多数搜索引擎被公司所有,很少技公开术细节。
这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做**(见附录A)。
Google的主要目标是推动学术领域在此方面的发展,和对它的了解。
另一个设计目标是给大家一个实用的系统。
应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。
例如,每天有几千万个研究。
然而,得到这些数据却非常困难,主要因为它们没有商业价值。
我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。
为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。
设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。
系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。
我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。
2. 系统特点 Google搜索引擎有两个重要特点,有助于得到高精度的搜索结果。
第一点,应用Web的链接结构计算每个网页的Rank值,称为PageRank,将在98页详细描述它。
第二点,Google利用超链接改进搜索结果。
2.1 PageRank:给网页排序 Web的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。
我们建立了一个包含518‘000’000个超链接的图,它是一个具有重要意义的样本。
这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。
因此在web中,PageRank能够优化关键词查询的结果。
对于大多数的主题,在网页标题查询中用PageRank优化简单文本匹配,我们得到了令人惊叹的结果(从google.stanford.edu可以得到演示)。
对于Google主系统中的全文搜索,PageRank也帮了不少忙。
2.1.1计算PageRank 文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。
PageRank发展了这种思想,网页间的链接是不平等的。
PageRank定义如下: 我们假设T1…Tn指向网页A(例如,被引用)。
参数d是制动因子,使结果在0,1之间。
通常d等于0.85。
在下一节将详细介绍d。
C(A)定义为网页A指向其它网页的链接数,网页A的PageRank值由下式给出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各个网页中,因此所有网页的PageRank和是1。
PageRank或PR(A)可以用简单的迭代算法计算,相应规格化Web链接矩阵的主特征向量。
中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。
还有一些技术细节超出了本文论述的范围。
2.1.2直觉判断 PageRank被看作用户行为的模型。
我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。
随机访问一个网页的可能性就是它的PageRank值。
制动因子d是随机访问一个网页烦了的可能性,随机另选一个网页。
对单个网页或一组网页,一个重要的变量加入到制动因子d中。
这允许个人可以故意地误导系统,以得到较高的PageRank值。
我们还有其它的PageRank算法,见98页。
另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。
直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。
一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。
如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。
PageRank处理了这两方面因素,并通过网络链接递归地传递。
& nbsp; 2.2链接描述文字(Anchor Text)我们的搜索引擎对链接文本进行了特殊的处理。
大多数搜索引擎把链接文字和它所链向的网页(the page that the link is on)联系起来。
另外,把它和链接所指向的网页联系起来。
这有几点好处。
第一,通常链接描述文字比网页本身更精确地描述该网页。
第二,链接描述文字可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。
有可能使返回的网页不能被抓到。
注意哪些抓不到的网页将会带来一些问题。
在返回给用户前检测不了它们的有效性。
这种情况搜索引擎可能返回一个根本不存在的网页,但是有超级链接指向它。
然而这种结果可以被挑出来的,所以此类的问题很少发生。
链接描述文字是对被链向网页的宣传,这个思想被用在World Wide Web Worm 中,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。
我们大量应用链接描述文字,因为它有助于提高搜索结果的质量。
有效地利用链接描述文字技术上存在一些困难,因为必须处理大量的数据。
现在我们能抓到24‘000’000个网页,已经检索到259‘000’000多个链接描述文字。
2.3其它特点除了PageRank和应用链接描述文字外,Google还有一些其它特点。
第一,所有hit都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。
第二,Google跟踪一些可视化外表细节,例如字号。
黑体大号字比其它文字更重要。
第三,知识库存储了原始的全文网页。
3有关工作 Web检索研究的历史简短。
World Wide Web Worm()是最早的搜索引擎之一。
后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。
与Web的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。
根据Michael Mauldin(Lycos Inc的首席科学家)) ,“各种各样的服务(包括Lycos)非常关注这些数据库的细节。
”虽然在搜索引擎的某些特点上做了大量工作。
具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。
最后有关信息检索系统的研究很多,尤其在有组织机构 *** (well controlled collections)方面。
在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。
3.1信息检索信息检索系统诞生在几年前,并发展迅速。
然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的 *** ,例如科学论文集,或相关主题的新闻故事。
实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的 *** 作为它们的基准。
大型文集基准只有20GB,相比之下,我们抓到的24000000个网页占147GB。
在TREC上工作良好的系统,在Web上却不一定产生好的结果。
例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。
在Web环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。
例如,查询“Bill Clinton”,返回的网页只包含“Bill Clinton Sucks”,这是我们从一个主要搜索引擎中看到的。
网络上有些争议,用户应该更准确地表达他们想查询什么,在他们的查询请求中用更多的词。
我们强烈反对这种观点。
如果用户提出象“Bill Clinton”这样的查询请求,应该得到理想的查询结果,因为这个主题有许多高质量的信息。
象所给的例子,我们认为信息检索标准需要发展,以便有效地处理Web数据。
3.2有组织结构的 *** (Well Controlled Collections)与Web的不同点 Web是完全无组织的异构的大量文档的 *** 。
Web中的文档无论内在信息还是隐含信息都存在大量的异构性。
例如,文档内部就用了不同的语言(既有人类语言又有程序),词汇(【email】地址,链接,邮政编码,**号码,产品号),类型(文本,HTML,PDF,图像,声音),有些甚至是机器创建的文件(log文件,或数据库的输出)。
可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。
隐含信息包括来源的信誉,更新频率,质量,访问量和引用。
不但隐含信息的可能来源各种各样,而且被检测的信息也大不相同,相差可达好几个数量级。
例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。
很明显,搜索引擎对这两类信息的处理是不同的。
Web与有组织结构 *** 之间的另外一个明显区别是,事实上,向Web上传信息没有任何限制。
灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵搜索引擎,这些已经成为一个严重的问题。
这些问题还没有被传统的封闭的信息检索系统所提出来。
它关心的是元数据的努力,这在Web搜索引擎中却不适用,因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。
甚至有些公司为牟利专门操纵搜索引擎。
4 系统分析(System Anatomy)首先,我们提供高水平的有关体系结构的讨论。
然后 ,详细描述重要的数据结构。
最后,主要应用:抓网页,索引,搜索将被严格地检查。
Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节,我们将看看整个系统是如何工作的(give a high level),见图1。
本节不讨论应用和数据结构,在后几节中讨论。
为了效率大部分Google是用c或c++实现的,既可以在Solaris也可以在Linux上运行。
Google系统中,抓网页(下载网页)是由几个分布式crawlers完成的。
一个URL服务器负责向crawlers提供URL列表。
抓来的网页交给存储服务器storeserver。
然后,由存储服务器压缩网页并把它们存到知识库repository中。
每个网页都有一个ID,称作docID,当新URL从网页中分析出时,就被分配一个docID。
由索引器和排序器负责建立索引index function。
索引器从知识库中读取文档,对其解压缩和分析。
每个文档被转换成一组词的出现情况,称作命中hits。
Hits纪录了词,词在文档中的位置,最接近的字号,大小写。
索引器把这些hits分配到一组桶barrel中,产生经过部分排序后的索引。
索引器的另一个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述anchors文件中。
该文件包含了足够的信息,可以用来判断每个链接链出链入节点的信息,和链接文本。
URL分解器resolver阅读链接描述anchors文件,并把相对URL转换成绝对URL,再转换成docID。
为链接描述文本编制索引,并与它所指向的docID关联起来。
同时建立由docID对组成的链接数据库。
用于计算所有文档的PageRank值。
用docID分类后的barrels,送给排序器sorter,再根据wordID进行分类,建立反向索引inverted index。
这个操作要恰到好处,以便几乎不需要暂存空间。
排序器还给出docID和偏移量列表,建立反向索引。
一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起,建立一个新的字典,供搜索器使用。
这个搜索器就是利用一个Web服务器,使用由DumpLexicon所生成的字典,利用上述反向索引以及页面等级PageRank来回答用户的提问。
4.2主要数据结构经过优化的Google数据结构,能够用较小的代价抓取大量文档,建立索引和查询。
虽然近几年CPU和输入输出速率迅速提高。
磁盘寻道仍然需要10ms。
任何时候Google系统的设计都尽可能地避免磁盘寻道。
这对数据结构的设计影响很大。
4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统,用长度是64位的整型数据寻址。
多文件系统之间的空间分配是自动完成的。
BigFiles包也处理已分配和未分配文件描述符。
由于操纵系统不能满足我们的需要,BigFiles也支持基本的压缩选项。
4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。
每个网页用zlib(见RFC1950)压缩。
压缩技术的选择既要考虑速度又要考虑压缩率。
我们选择zlib的速度而不是压缩率很高的bzip。
知识库用bzip的压缩率接近4:1。
而用zlib的压缩率是3:1。
文档一个挨着一个的存储在知识库中,前缀是docID,长度,URL,见图2。
访问知识库不需要其它的数据结构。
这有助于数据一致性和升级。
用其它数据结构重构系统,我们只需要修改知识库和crawler错误列表文件。
4.2.3文件索引文件索引保存了有关文档的一些信息。
索引以docID的顺序排列,定宽ISAM(Index sequential access mode)。
每条记录包括当前文件状态,一个指向知识库的指针,文件校验和,各种统计表。
如果一个文档已经被抓到,指针指向docinfo文件,该文件的宽度可变,包含了URL和标题。
否则指针指向包含这个URL的URL列表。
这种设计考虑到简洁的数据结构,以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。
还有一个文件用于把URL转换成docID。
它是URL校验和与相应docID的列表,按校验和排序。
要想知道某个URL的docID,需要计算URL的校验和,然后在校验和文件中执行二进制查找,找到它的docID。
通过对这个文件进行合并,可以把一批URL转换成对应的docID。
URL分析器用这项技术把URL转换成docID。
这种成批更新的模式是至关重要的,否则每个链接都需要一次查询,假如用一块磁盘,322‘000’000个链接的数据 *** 将花费一个多月的时间。
4.2.4词典词典有几种不同的形式。
和以前系统的重要不同是,词典对内存的要求可以在合理的价格内。
现在实现的系统,一台256M内存的机器就可以把词典装入到内存中。
现在的词典包含14000000词汇(虽然一些很少用的词汇没有加入到词典中)。
它执行分两部分—词汇表(用null分隔的连续串)和指针的哈希表。
不同的函数,词汇表有一些辅助信息,这超出了本文论述的范围。
4.2.5 hit list hit list是一篇文档中所出现的词的列表,包括位置,字号,大小写。
Hit list占很大空间,用在正向和反向索引中。
因此,它的表示形式越有效越好。
我们考虑了几种方案来编码位置,字号,大小写—简单编码(3个整型数),紧凑编码(支持优化分配比特位),哈夫曼编码。
Hit的详细信息见图3。
我们的紧凑编码每个hit用2字节。
有两种类型hit,特殊hit和普通hit。
特殊hit包含URL,标题,链接描述文字,meta tag。
普通hit包含其它每件事。
它包括大小写特征位,字号,12比特用于描述词在文档中的位置(所有超过4095的位置标记为4096)。
字号采用相对于文档的其它部分的相对大小表示,占3比特(实际只用7个值,因为111标志是特殊hit)。
特殊hit由大小写特征位,字号位为7表示它是特殊hit,用4比特表示特殊hit的类型,8比特表示位置。
对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置,4比特用于表明anchor出现的哈希表hash of the docID。
短语查询是有限的,对某些词没有足够多的anchor。
我们希望更新anchor hit的存储方式,以便解决地址位和docIDhash域位数不足的问题。