数字图书馆与Internet的对比分析

业内新闻 2007-10-19 16:21:55

数字化革命和Internet的发展带来了经济、贸易、信息传播的全球化。可是，Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出，据权威机构统计，网上约有数十亿的网页，并且这一数字还在不断增长，而如何有效利用如此庞大的信息技术的水平却远远落后于信息增长的速度。而且，由于Internet上的信息资源很大程度上处于混乱无序状态，大大影响了信息利用的效率，从而造成对网上巨大信息资源以及网络互联和带宽的极大浪费。

1 Internet在资源利用上存在的主要问题（1）查找困难。查找困难的根本原因在于信息仓储中的数字化信息缺乏良好的组织结构，这恰如一个没有合理的分类体系，不进行严格编目控制，缺乏统一的主题词表的图书馆，馆藏再丰富也无异于一座堆放资料的仓库。

（2）互操作问题。Internet上的信息资源是由分布在各处的各种各样的信息仓储构成的，每个仓储都是一个相对独立的信息空间，具有各自的信息组织方式和处理方式，具有不同权限保护收费政策。用户的信息需求往往也需要查询多个仓储才能满足。在网络环境下，用户要了解每一个仓储的特性并掌握其检索技术，这无疑是一项沉重的负担。

（3）大规模分布数据的操作。目前，Internet已成为一个全球的信息网络系统，网上的信息量达到了空前的规模，而且还在不断增长，它们广泛分布在网络的各个角落，在处理和检索这些网络信息时必须充分考虑信息的分布性和超大规模，于是在分布式数据集合上采用不同的方法进行检索也成为Web信息检索的一个重要挑战。在过去的信息检索研究中，人们提出过多种不同的检索方法，例如，使用不同的检索模型、语言学资源、参数设置或不同的信息空间等方法得到的检索结果也各不相同。而且每种方法不一定对每个查询都能起到最佳性能，有时得到的检索结果往往还具有很大的互补性。尤其是在一个数据集合中对不同的数据子集分别进行检索时，这种互补现象尤其明显。这时也需要通过对不同检索数据集合的结果合并，得到在整个数据集上的结果，并提交给用户。这是分布式信息检索的一个必要而重要的环节。最近，清华大学张敏等人提出了按位加权插入合并算法。虽然这种方法在一定程度上突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限，但不能从根本上改变在Internet中，由于海量数据的多样性和分布性所带来的大规模分布数据的操作所带来的一系列问题。

（4）搜索引擎的主要问题。在信息多元化的发展趋势下，信息收录完备性、检全率、检准率、检索功能和用户检索界面等方面还存在许多不足。搜索引擎发展的主要问题是信息收录的完备性不够、检全与检准都不理想，检索功能单一。如何提高信息检索的检准率及完善和用户间的交互功能成为了搜索引擎的新问题。

（5）Internet网络拥堵。中国互联网正在稳步发展，网民成倍增长，用户的上网时间也持续增加，于是用户上网时常常会碰到网络拥堵问题，原因是：用户分散在各个地方，他们随时会使用Internet，此时网络组件很难控制和处理这些流量到达的分布和大小，从而导致网络服务质量的下降。

2 数字图书馆技术的先进性

数字图书馆与目前的互联网相比，在提供信息资源技术上有很大的优势，具体有以下几方面：

2.1 资源内容的组织方式不同

数字图书馆的资源内容是按照用户需求挑选出来的具有高度价值的知识信息，它经过分类、编辑、整理、加工等方法，以受教育者易于接受的形式提供给用户，是一种有很大增值价值的、有序的知识库。而Internet上的资源内容是无序的，上网信息的内容鱼龙混杂，良莠不齐。

数字图书馆将资源分为元数据库和对象数据库。元数据是描述和管理对象数据的数据，对象数据是指数字化的文本、图片、声音、影像等数据。元数据要集中在数字图书馆中心的超大规模的服务器上，对象数据库则分布式存放在各地的资源点内。当用户查询时，中心高度系统通过元数据调度各个对象数据库中的数据供用户使用。

2.2 资源内容标引方法不同

目前，Internet上提供的信息资源有的也经过一定的标引，但标引深度以文献条目为主，大多数全文文献则是不经标引上网。在有用户请求时由 Internet搜索引擎按每种文献的前50~200进行关键词抽取，并与查询请求匹配得出结果，其查全率、查准率都有问题。数字图书馆的资源标引则深入到文献内容，对每一数据对象使用标准通用置标语言/可扩展置标语言（SGML/XML）进行置标，并抽取元数据组织元数据库。SGML/XML是信息处理的国际标准，是用来定义具有特殊目的的标记语言，它在文件的保护、交换、共用、整合、安全、扩展、长级等方面的应用都是其标准化所无法比拟的。

2.3 检索效果不同

数字图书馆由于进行了上述工作，使各资源库之间实现跨库无缝链接成为可能，只要采用合适的查询引擎及中间件，用户就能够通过浏览器方便、迅速地找到所需要的内容。目前，数字图书馆大都采用分布式检索，在此系统中，图书馆服务器和各个对象服务器是分布式分布的，且各个服务器上的数据库要求可以是异构

的，数据对象被封装分布在各个服务器中，然后依据需求采用中间件来提供服务。而Internet上的信息网则不同，它没有经过加工、标引，各种资源杂乱无章，用户在检索信息时需要对一个个网站进行访问。在使用检索引擎检索信息时，如同大海捞针一样，既慢又不全。

3 数字图书馆的发展前景

数字的信息化已经成为历史发展的必然趋势，而数字图书馆是未来图书馆发展的大趋势，从信息方面来讲，必然有数字存储海量化和信息的标准化两个方面。 Internet的无国界特性使得数字图书馆的合作空间无限扩大，全球性合作成为可能，并且逐步实现人才、技术、设施、资源等多方面的合作，在关键技术上互通有无，最终实现全球数字一体化。