邮箱登陆

公告栏更多>
新闻动态更多>
关于联盟
  • 北京数字太和科技有限责任公司
  • 北京版银科技有限责任公司
  • 中国科学院自动化研究所
  • 北京同方易豪科技有限公司
  • 北京国泰信安科技有限公司
  • 中国人民大学
  • 北京泛亚精致传媒制作有限公司
  • 北京理工雷科电子信息技术有限公司
  • 北京云视天创网络科技有限公司
  • 北京亚细亚智业科技有限公司
  • 天柏宽带网络科技(北京)有限公司
  • 北京慧点东和信息技术有限公司
  • 北京星天下信息技术有限公司
  • 北京安顺知达网络技术有限公司
  • 北京纽曼腾飞科技有限公司
  • 东华软件股份公司
  • 富丽年华(北京)文化发展有限责任公司
  • 天津中科蓝鲸信息技术有限公司
  • 北京市中视朗域纪录片文化传播中心
  • C3D产业联盟公共服务中心
  • 清华大学深圳研究所院
技术创新展示当前位置:主页 > 技术创新展示 >

中文新闻信息置标语言

发布时间:2012-01-13 10:00  被阅览数:  来源:未知

"中文新闻信息置标语言"标准是课题组在充分研究现有国际国内相关技术标准的基础上,解放思想,立足自身,锐意创新,走自己的路设计出的国家标准。

  课题组深入剖析了国际、国内相关技术标准的优缺点,广泛调研了国内新闻技术的现状和新闻媒体的实际需求,充分意识到标准要符合我国国情,认真研究了知识产权的问题,确立了以创新推动标准研制,从头设计国家标准的基本思路。

  课题组充分把握住了标准的总体需求,认为:标准制定的首要任务是实现跨媒体的数据交换,为媒体行业提供一个统一的元数据标准和交换格式,进而实现数据共享。标准应该能够很好地描述交换数据的内容信息,具有一定的前瞻性。根据需求调研和技术发展的趋势要求,标准需要对所交换的数据提供更多语义方面的支持,提供稿件之间和稿件内容项之间的关联关系,以便为知识挖掘提供进一步支持,为新闻媒体资产的增值业务提供服务。

  在此基础上,课题组创新性地完成了项目研究,技术路线有一定的前瞻性和设计优势,总体看来,体现在如下这些方面:

  1. 总体技术路线

  "中文新闻信息置标语言" CNML总体技术路线涵盖了四方面内容。

  第一,标准突出体现了CNML的两个重要主体,一为用于交换的数据,二为数据之间的语义关系。标准结构上将数据对象和语义关系分开表示,在数据层定义了便于进行数据交换的数据内容,在语义层对数据层所表达的信息对象进行语义关系的解释。标准本身的定义以XML Schema形式为主。同时,为了充分突出标准描述信息的语义特征,借鉴RDF的数据建模思想,课题组提出了融合语义特征描述功能且基于XML Schema语法的CNML标准。这在国内现有XML标准制定中是一个创新。

  第二,通过建模方法构建了一个统一的标准概念模型,在此概念模型的基础上,采用XMLRDF两种技术方法设计两套标准Schema,两套Schema在设计上要充分考虑各自技术特点,以便将来在应用中实现相互之间的转换和融合。

  第三,CNML中的通用新闻对象采用了一种抽象的表示形式,真正的新闻对象只在实例化时才进行替代,以实现标准良好的扩展性;

  第四,在标准中要充分地分析了数据层和语义层所表达信息的结构和内容,将可能出现的稿件与稿件、内容项与内容相之间的逻辑关系提取出来,定义出标准中可能出现的信息结构和语义逻辑关系,以实现对标准的元数据和标准的逻辑语义关系进行方便描述。

  2. 标准概念模型

  课题组通过对国际、国内各种已有新闻交换标准和其概念模型的研究分析,发现了已有标准及概念模型存在的不足,按照新的技术路线,设计出了新的新闻交换的概念模型,解决了国际IPTC组织NewsML1.2概念模型存在的不足;有效地确立了标准Schema设计的基础研究方法;对新闻元数据进行了新的分类设计,较好地解决了不同层次新闻对象元数据的复用和扩展问题。CNML概念模型具有如下特点:

  1) CNML概念模型和NewsML1.x概念模型对应的现实对象模型是一致的,都可以方便地表达富含各种不同类型的内容实体和内容组合的新闻信息稿件结构;CNML概念模型继承了NewsML概念模型中独立于各种具体内容表达方式的优点;

  2) CNML概念模型中取消了新闻组件这样一个中间层次,消除了由于新闻组件引入导致的各种复杂嵌套的物理结构,通过引入新的关系元素(内容项关系、稿件关系)来表达新闻稿件之间、新闻稿件包含的多个不同内容实体之间的结构和组合关系;可以在一定程度上方便对内容项、稿件进行内容存储和信息资产的管理;

  3) CNML概念模型中,稿件和内容项均作为抽象类型存在,分别只包含稿件和内容项的公共特征,不同类型的稿件和内容项都可以从抽象的稿件和内容项类型继承扩展,在具备共同元数据特征和结构特点之外,可以拥有自己的元数据特征和自有结构;较好地解决了共性和特性的表达矛盾。

  3. 元数据模型的建立

  在基于XML Schema的元数据项设计中,课题组特别注重了标准设计概念的整体统一,以利于使用者可以清晰地理解标准的设计思想。标准中确定了要遵循的统一的设计概念:

  1) 设计最基本的元数据项基类型和公共结构类型,任何复杂的数据类型都是通过元数据项基类型和公共结构类型扩展而来;

  2) 数据绑定模式统一采用前绑定(Early Binding)设计,保证标准的元数据在任何情况下都可以得到验证;

  3) 为了便于元数据引用,每个元数据项都带有ideid属性作为其标识符,均为复杂类型ComplexType

  4) 元数据都属于某一个元数据组,元数据组提供了扩展结构(MetaGroup),元数据组包含在元数据容器(MetaInfo)内;

  5) 增加对元数据本身的信息描述(元元数据),进一步说明元数据的信息,对一个元数据组的描述信息也封装在一个组中,生成一个元元数据组;

  6) 标准中的所有元数据都是通过逐步继承这些最基本的通用结构来实现的,而不用对每个元数据都重新定义。

  4. 面向对象的设计

  在CNML标准设计中,采用了数据建模思想和面向对象的设计方法,有效地确立了标准的基础研究方法。首先,对标准中涉及到新闻对象进行建模,然后,通过面向对象的设计方法定义标准中新闻对象的基本类和扩展类,通过类的继承方法逐步从基本类扩展出新的子类。广泛采用了抽象类实例化技术,将反映具体新闻对象特征的抽象类实例化为具体的新闻数据对象,解决了共性和特性的问题。

  5. 易用性强的新闻元数据组设计

  元数据在CNML标准中至关重要。在研制过程中,课题组对收集到的大量的元数据进行了多次讨论,去重补遗,对标准基础元数据的分类规则进行了研究,保证了元数据的完备性。

  考虑了新闻行业元数据的特点,借鉴了NewsML的元数据分类方法,以保证同IPTC的互通性,实现同国际标准的接轨;同时在某些特定层面参考了Dublin Core的元数据分类方法,既体现了对元数据的分类管理和存放的理念,又兼顾了简单易用的原则,最大程度地实现各类新闻信息资源在管理、发现和获取方法上的一致性,为实现不同媒体和业务系统间的互操作、业务协同和信息共享提供了基础条件;重点考虑了不同层次新闻对象元数据的复用,最后确定了简洁易管理的CNML新闻元数据的分类规则。

  6. 关系模型的设计

  标准概念模型中引入了新的关系逻辑,以对新闻对象之间的关系进行表达。在Schema设计中关系元素可以表达新闻稿件之间、新闻稿件包含的多个不同内容实体之间的结构和组合关系,也能表达受控词表中受控词之间的各种类型的关系,丰富了稿件、内容项、受控词表的关系表达。

  通过关系逻辑的设计,各种稿件、内容项之间的复杂关系在通过相关的关联关系元素表达后,稿件和内容项的物理结构被扁平化,因此不会出现因为稿件之间、内容项之间存在的各种组合关系导致实际稿件结构出现多重嵌套的复杂情况,也不会因为对稿件和内容项的物理结构作调整而导致稿件架构发生巨大变化,这样可以大大方便对内容项、稿件进行内容存储管理和资产应用,也有利于保证标准概念和结构不会出现二义性。

  关系结构的设计还考虑了标准由CNML XML SchemaRDF Schema转换的实现问题,两种Schema架构有很好的设计一致性,便于新闻信息从XML表示转向RDF表示,有利于实现标准的长远目标。

  7. 扩展机制

  CNML在满足现有新闻数据交换的基础上,为满足未来可能出现的数据交换的新需求提供了良好的扩展机制。CNML除了使用命名空间引入别的模式文件以及使用XML Schema规范提供的include机制进行扩展外,还设计了多种灵活的扩展方式,其扩展机制包括标准模式结构本身的扩展和元数据的扩展两大方面。

  在模式结构扩展中,通过定义抽象类型及其子类以及它们之间的扩展关系实现扩展机制。这种扩展机制的基本方法是为某类数据定义其基本的抽象类和带有具体特性的不同扩展类,在模式文件中对相应的元素类型仅指定其可能出现的具体扩展类的父类,而在针对该模式文件的实例文件中,在该元素的实例中以"xsi:type=子类名"的方式指定其具体的扩展类。

  在CNML标准中,针对现有的业务需求定义了不同的基本概念模型及其扩展结构,具体包括:

  1) 关系及其扩展机制;

  2) 受控词表及其扩展机制;

  3) 稿件及其扩展机制;

  4) 内容项及其扩展结构。

  CNML设计了多种元数据扩展机制。该扩展机制包括对通用元数据、元数据项和元数据类型的扩展。

  8. 具备新闻信息的数字签名功能

  新闻信息的安全性非常重要,考虑到新闻的具体情况,CNML中的数字签名机制是基于以下安全性指标进行设计的:

  1) 稿件内容的完整性,确保发送方所提交的保护内容在传输过程中不被篡改,接收方能够认证所接收的被保护的内容是否与发送时的内容一致;

  2) 稿件内容的身份识别(原创性证明),确保稿件内容的创建者既是原创者,不被他人或第三方侵权和冒充;

  3) 签名者的身份识别,确保签名者的信息是真实唯一的,接收方可以认证所收到的信息的数字签名是正确的签名信息;

  4) 新闻外部文件的正则性:确保CNML文档包含的附件内容、样式单内容在传输过程中不被窜改,接收方能够认证所接收的被保护的内容是否与发送时的内容一致。

  9. 内联标记的设计

  CNML除了可以在稿件或者内容项的元数据描述部分提供对稿件中的各类主题信息的描述以外,还提供了一组可以内嵌在稿件正文内容中标识主题词的标记,我们称这组标记为内联智能标记(inline intelligent markups)。

  CNML内联智能标记规范中预定义了一个复杂类型和八个智能标记元素。通过这组标记可以对稿件正文中出现的人物、职位、机构、事件、行业、地点、对象名、分类等信息进行标记,便于大家使用各种自然语言检索或者知识管理引擎对稿件进行主题检索、专题制作、自动分类、自动聚类等智能化处理。

  10. 与国际同类标准比较

  在以上创新性设计的基础上,CNML同国际上IPTC组织目前正式发布的最新的NewsML1.2版本的标准相比,主要有如下特点:

  1) CNML的三层概念模型避免了概念和结构的二义性,也不会像NewsML的二层模型那样容易陷入嵌套,可避免文件结构因而变得繁复,可读性和易用性也相应减低的缺陷。

  2) CNML的设计在结构上同IPTCNewsML有很好的对应性,可以方便实现同国际标准NewsML的接轨。

  3) CNML的信封结构的交换功能考虑了多种供稿方式,交换功能更为强大。

  4) CNML的 "稿件关系集合"结构,透过一组独立元素来描述稿件间的关系,表达清晰,简单易用。简化了联系相关新闻内容所需步骤,大大弥补了NewsML在这方面欠缺的灵活性。

  5) CNML的设计考虑了标准的长远发展,对通过语义深度挖掘实现的新闻内容管理进行了设计和考虑,有利于实现新闻的增值服务和标准的长远发展。

  6) CNML的元数据设计很好地实现了不同层次新闻对象的复用,结构更加清晰,表达的能力更加强大。

  7) CNML在内容项元数据的设计上更加顾及新闻行业的实际需要,制定出常用的专用元素,在处理多媒体稿件时,用户毋需自行多花时间定义。

  8) CNML的内联标记的设计为新闻数据内容提供了多层次的检索体系。通过内联检索和元数据检索,用户可清晰快速地检索出稿件的来源及收发资料,便于检索引擎进行筛选。

  9) CNML的开放性和互操作性程度很高,提供了多层次的、多种方式的标准扩展机制。

  10) 数字签名的设计能有效保证和防止新闻信息的内容被非法篡改。

  11) CNML在结构上通过必选元素实现了"标准必选集";通过可选元素实现了"标准扩展集",通过规范的扩展机制实现了"自定义扩展集",这样可以满足不同用户在不同层次采用统一标准进行新闻信息的交换。

  12) 标准整体框架设计先进,有利于形成标准体系。

  总之,CNML参照了多个相关国际标准而制定,借鉴了其优点,开放性和互操作性程度很高。在技术路线上,CNML考虑了语义技术的发展,有创新性的设计,适应长远的对新闻数据的深度挖掘的需要,有利于发展新闻资产增值服务。在结构细节上,又特别考虑到媒体的实际情况,功能更为完备。CNML设计了多种扩展机制,适应面广,有利于电子新闻行业扩展商机,也有利于世界范围内的不同用户进行调整使用。CNML填补了我国新闻行业技术标准的空白,达到国际同类标准的先进水平。

来源于汽车租赁