博文

面向DIKW的跨模态内容建模研究和处理实践（指导的2022年5月硕士毕业论文旧版）

已有 2067 次阅读 2022-12-30 10:29 |系统分类:论文交流

Modeling research and processing practices for DIKW-oriented cross-modal content

May 2022
Thesis for: Master
Advisor: Yucong Duan
Project:
DIKWP: Semantic Computation-Existence Computation-Essence Computation-Cognitive Computation

硕士学位论文

题目	：	面向DIKW的跨模态内容建模研究和处理实践

作者	：	樊珂(Ke Fan)
指导教师	：	段玉聪（Yucong Duan）教授
专业	：	网络空间安全
时间	：	二○二二年五月

Modeling research and processing practices for DIKW-oriented cross-modal content

A Thesis

Submitted in Partial Fulfillment of the Requirement

For the Master Degree in Engineering

Fan Ke

Supervisor: Yucong Duan

Major: Cyberspace Security

Submitted time : May,2022

海南大学学位论文原创性声明和使用授权说明

原创性声明

本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本声明的法律结果由本人承担。

论文作者签名：　　日期：年月日

学位论文版权使用授权说明

本人完全了解海南大学关于收集、保存、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。学校可以为存在馆际合作关系兄弟高校用户提供文献传递服务和交换服务。本人授权海南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密论文在解密后遵守此规定。

论文作者签名：　　导师签名：

日期：年月日　　　日期：年月日

…………………………………………………………………………………………

本人已经认真阅读“CALIS高校学位论文全文数据库发布章程”，同意将本人的学位论文提交“CALIS高校学位论文全文数据库”中全文发布，并可按“章程”中规定享受相关权益。同意论文提交后滞后：□半年；□一年；□二年发布；□其他：（）年。

论文作者签名：　　　导师签名：

日期：年月日　　　　日期：年月日

摘要

数据作为一种自然资源，其开发利用水平已成为衡量国家现代化水平的重要指标之一。面对社会上巨大的数据处理需求，如何更好地利用数据，为人民群众带来更多的效益和价值，是当今面临的重要挑战之一。本文基于数据、信息、知识与智慧（DIKW）理论提出了一种新的资源建模和处理方案，该方案整合数据、信息、知识与意图（DIKP）同模态和跨模态资源的力量和价值，能够以更低的成本适应更广泛的人工智能应用场景。本文的主要工作和创新点如下：

第一，构建面向DIKW跨模态内容模型。针对数据、信息和知识资源组织方式不明的问题，本文将说明人类特定目的的资源构建为新的意图资源，进一步明晰了数据、信息和知识资源的概念；分析DIKP资源中存在的语义依赖关系并确定资源的转换范式，完成跨模态内容的总体建模，并对康养背景下的用户体检相关资源进行建模实践。

第二，提出跨模态内容融合转换处理技术。针对无法充分利用同模态和跨模态资源的问题，本文在康养背景下收集同模态和跨模态内容资源进行处理转换的各种实例，分析规律并形成抽象层次的内容资源处理技术，为数据处理和分析提供新的解决思路。同时在DIKP理论角度下探讨医患在交流中出现理解偏差的原因，设计一种基于意图驱动和资源融合转换技术来减少交流双方理解偏差的方案，促进跨模态内容融合转换处理技术的应用。

第三，运用DIKP理论完成康养内容资源搜索推荐应用。面对康养背景下用户对相关内容资源的搜索推荐需求，针对搜索能力有限情形设计了一种DIKP图谱遍历搜索排序算法。并且在期望代价与实际执行代价匹配的情形下，设计了一种在意图驱动下以资源代价和影响力共同决定资源排序结果的搜索推荐算法，可根据用户的自身意图匹配返回资源，更好地满足用户对资源的广泛搜索需求。

本文对面向DIKW的跨模态内容建模和处理进行了深入的研究，并在经验性判断及仿真实验的基础上，判断将DIKP技术应用于康养领域的研究是有效的。本文的研究内容具有理论意义和应用价值，可将本文的研究技术推广应用到金融贸易、互联网等更广泛的人工智能应用场景，提升数据处理质量和效率，为建设现代化国家提供助力。

关键字：DIKW；数据处理；同模态；跨模态资源建模；语义处理

Abstract

As a natural resource, the level of exploitation of data has become one of the important indicators of the level of the country and modernisation. Faced with the huge demand for data processing in society, how to make better use of data to bring more benefits and value to the people is one of the key challenges faced today. This thesis proposes a new resource modelling and processing scheme based on Data, Information, Knowledge and Wisdom (DIKW) theory, which integrates the power and value of Data, Information, Knowledge and Purpose (DIKP) homo-modal and cross-modal resources and can be adapted to a wider range of AI application scenarios at a lower cost. The main work and innovation points of this thesis are as follows:

First, this thesis establishes a model for DIKW cross-modal content. Aiming at the problem of unclear organization of data, information and knowledge resources, this thesis constructs resources that illustrate the specific purpose of human beings as new purpose resources, and further clarifies the concepts of data, information and knowledge resources. This thesis analyzes the semantic dependencies existing in DIKP resources and determine the transformation paradigm of resources, completes the design of a general modeling scheme for cross-modal content models, and conducts modeling practices for user physical examination-related resources in the wellness content resources.

Second, this thesis proposes the cross-modal content fusion and conversion processing techniques. Aiming at the problem that the homo-modal and cross-modal resources cannot be fully utilized, this thesis collects various examples of the processing and conversion of the homo-modal and cross-modal content resources in the context of health care, analyzes the rules and designs an abstract-level content resource processing scheme, provides new solutions for data processing and analysis. It also explores the causes of misunderstandings between doctors and patients in communication from the perspective of DIKP theory. A solution based on purpose-driven and resource fusion transformation techniques is designed and implemented to reduce the understanding bias of both parties in communication. It can facilitate the application of cross-modal content fusion conversion processing techniques.

Third, this thesis uses the DIKP theory to complete the search and recommendation application for wellness content resources. Facing the search and recommendation needs of users for relevant content resources in the context of wellness, a search order optimization scheme is designed for the case of limited search capability. Moreover, a search recommendation strategy is designed in which the resource value and influence jointly determine the resource ranking result under the situation where the desired cost matches the actual execution cost, driven by purpose. The scheme can match the returned resources according to the user's own purpose and better meet the user's broad search demand for resources.

This thesis presents an in-depth study of cross-modal content modelling and processing for DIKW. Based on empirical judgement and simulation experiments, the application of DIKP techniques to the field of wellness is judged to be effective. The research content of this thesis has theoretical significance and application value. The research techniques in this thesis can be extended and applied to a wider range of artificial intelligence application scenarios such as financial trade and the Internet. This research can help improve the quality and efficiency of data processing and provide a boost to building a modern nation.

Keywords: DIKW; data processing; homo-modality; cross-modal resource modelling; semantic processing

导图1 论文组织结构图

导图2 模型算法关系导图

4 面向DIKW跨模态内容融合转换处理技术

4.3.2 DIKP理论下理解偏差问题具体表现

4.3.3 基于DIKP理论减少理解偏差应用

5.3 意图驱动下代价和影响力导向的资源搜索推荐算法

1 绪论

1.1 研究背景及意义

1.1.1 数据资源处理

目前医疗康养、互联网、工业等行业都产生了大量的数据，数据的数量呈指数级快速增长，已成为新的自然资源。这些数据资源来源广泛、种类复杂，处理难度高，并且随着累积内容量的增加，我们发现当前的数据资源处理机制相对滞后于信息世界中资源的生成速度，资源的利用并不充分。因此，如何更好、更充分地利用数据，为人们的生活和工作带来更多效益和价值，成为了一个新的挑战。在该背景下，人工智能因具备了足够的训练数据和应用需求，成为了当今最炙手可热的科学学科之一（刘华东等, 2017; Shafiullah et al., 2022）。

在数据资源处理方面，最初的研究主要关注数值型或字符型的结构化数据资源，例如对数据库资源通过数据挖掘分析、强化学习等技术手段完成特征提取、预测等数据分析过程，提取出隐含于资源中，并对人类利用产生有益效果的其他资源及关联（戴明锋等, 2017; Emrouznejad, 2016）。这些方法取得了大量的优异成果，获得了广泛应用，但资源中仍存在大量非结构化数据资源，如自然语言形式的文本内容，未被有效处理和使用（池云仙等, 2016; 黄陵, 2021; Adnan et al., 2021）。人脑可以很自然地对这些自然语言进行语义分析和处理，但机器无法很好地完成。目前自然语言处理技术可以有效地完成对词汇和语言的转换，但真实情况却是，机器并不能理解词汇与语言的真实含义，并且存在可解释性问题（何华灿, 2019）。因此若想让机器像人类一样快速理解海量的数据，并代替人类去深度挖掘数据资源中的价值，首先就需要探讨资源的组织形式，找到更好的组织形式来表示数据及其语义，减少资源的类型、结构等因素对处理造成的不便影响，提高处理效率和可解释性，并且提高资源的利用程度。在这方面知识图谱是一个处理自然语言的强大工具，可以成功地完成对语义数据的组织，最初是谷歌为优化网络搜索而提出的（Coffman, 2007; Paulheim, 2017）。

但是在现实生活的各种实践中，人们发现需要一个更好的资源组织，因为并不是所有的资源都应该放在同一类别或模式下。例如，对“为什么地球是圆的”问题的回答，更应该与知识模态的资源有关，而与单一的数据模态资源“地球”或“圆”无关（Li et al., 2021）。因此，近年来研究人员提出了一种将收集到的数据资源进一步划分为多种模态的方法，即DIKW架构（Data-Information- Knowledge-Wisdom，DIKW，数据-信息-知识-智慧）。 DIKW理论已被广泛用作各种领域的自然语言标记术语，因此可使用DIKW理论促进资源在自然语言方向上的表达和理解（Matney et al., 2011; Aven, 2013; Harry, 2014）。但是，对于DIKW概念的含义，以及数据，信息，知识和智慧之间存在的关系缺乏统一理解，需要进一步完善补充（Rowley, 2007; Chen et al., 2009; Frické, 2019）。

同时，通过多种渠道收集的资源往往是存在数据、信息、知识中两种及其以上模态的混合资源。对于这种跨模态资源的处理，现有的技术方案，如人工智能方法，大多基于对学习数据分布概率、信息完整性或知识系统逻辑一致性的假定。然而在现实实践中，很难确保机器在学习数据的概率分布时，能够像大数据处理一样拥有“适当”数量的数据；在信息的完整性方面，除了要考虑客观呈现的信息外，还需要考虑个人的主观目的；在保证知识系统逻辑的一致性时，需要将经验、常识与知识等进行协调统一。若要有效地利用数据、信息、知识资源，就需要更多的假设，但这些假设导致更高的收集、储存和处理相关资源的成本。因此，本研究建议通过数据、信息和知识之间的融合和转化，整合跨模态资源的力量和价值，以提高资源处理的效率和有效性，最终以更低的成本适应更广泛的人工智能应用场景，例如康养应用。

1.1.2 康养内容资源处理

在人口老龄化程度加深、亚健康人群增多、新冠疫情防控形势依旧严峻复杂的当下，人们对健康重要性的认识逐步提高，产生了疾病诊治、健康教育学习、提升健康素质等多种需求，而前往医院就诊仍是促使人类由非健康状态转为健康状态的重要途径。但近年来我国医患矛盾凸显，特别是恶性伤医事件时有发生，医患关系紧张，已经成为人们和谐相处的障碍，会影响个人与社会的关系，甚至影响到人们思想观念的形成。

患者关注着自身的个人感受，当感受出现异常时，他们选择前往医院或诊所就诊，向医生抱怨疾痛，他们用自己的语言描述这种不好的感觉，而医生通过倾听和询问病人相关情况，并结合自身的资源来重组病人的语言，并将其与医学话语进行对比，最终判断出病情并向患者进行传达。这是一种初步的互动，在这个过程中，医患之间的交流和理解决定互动的效果。但这个互动过程并非完全顺利，存在多种因素会导致医患纠纷，但最主要的影响源是医患之间的沟通不到位，产生了理解偏差问题，医生没有理解患者的表述，而患者没有听懂医生的医嘱，最终导致了医患冲突。其中医患所拥有的康养内容资源存在差异是导致医患存在沟通不畅问题的主要原因。现有对医患沟通问题的研究多从人文社科的角度探讨产生此类现象的原因和解决措施，但总体而言较为抽象，并且未对两方资源差异本身做更细粒度的分析，不知差异的基础特性或具体表现，以及面对不同形式的差异如何进行更加细致的处理才能更好地促进医患之间的交流和理解。

本研究利用DIKW理论，将患者和医务人员自身的资源映射成DIKP资源，以此为基础分析医患沟通问题，并提出一些解决此类问题的大致思路，促进医患之间的交流与理解。

本研究将在康养和医疗交互的背景下，继续探讨DIKW理论中数据模态、信息模态、知识模态的内容资源建模和处理方法不明的问题，将康养和医疗交互过程所收集的资源整合为数据、信息和知识模态的资源，并从背景资源中存在的同模态内容和跨模态内容进行处理的各种实例出发，分析实例中存在的规律并将其梳理成抽象层次的内容资源处理方案，该方案能以更低的成本适应更一般的人工智能应用场景，减少资源的类型和结构等因素对处理造成的不便影响，提高处理效率和资源的利用程度，可对DIKW理论和康养行业的发展产生积极影响，为深化落实“健康中国”战略贡献力量。

1.2 国内外研究现状

目前，城市建设、政务服务、医疗康养、互联网等行业在完成业务的过程中产生和积累了大量的可用数据。数据量的不断增加是大数据、云计算、人工智能等技术日益普及的一个重要原因，这些科学技术手段可以很好地分析与处理数据，挖掘数据蕴含的价值财富，进一步带动行业发展。

大数据（Big Data）是指快速生成和传播的大量异构数据集。重视和利用数据已成为社会各界的广泛共识（窦悦等, 2021）。这些数据集合的规模和数量如此庞大，更重要的是其中包含了越来越多的非结构化数据，这导致用于获取、储存、管理、分析、检索和可视化这些数据集的传统数据库软件与技术已不再适用，需要更先进、非常规和适应性更强的分析、处理方法，以应对海量数据带来的各种挑战（华为公司数据管理部, 2020）。

从硬件的角度来看，每个公司或组织都习惯于构建自己的基础架构来对每天增加的数据进行存储和计算。然而事实上，并不是所有的公司或组织都有足够的能力和必要性来构建自己的基础架构，特别是对于许多缺乏必要的技能、资源、资金支持和特定业务需求的非互联网组织来讲，这是十分困难且不必要的。因此，面对广大公司或组织普遍存在的高效数据存储与计算的需求，Microsoft Azure等云平台应运而生，它们能够在短时间内高效完成数据处理和资源合理配置，并根据用户的具体需求向用户提供可扩展、可伸缩的多元化云服务（Benson et al., 2011）。云平台和云计算技术的出现，使消费者转变了传统购买软硬件产品的消费方式，变成通过购买云平台上的服务来提高自身的工作效率（Armbrust et al., 2009）。云平台和云计算技术为复杂的服务器和硬件管理问题带来了解决方案，甚至解决了一部分软件问题，已经成为了金融（何朔, 2017; Li et al., 2022）、医疗（Sultan, 2014; Faridi, 2022）、媒体（Diaz-Sanchez, 2011）和政府（Wang et al., 2021）等行业数据中心建设的核心。

随着公司或组织在云平台上的业务数据规模不断增加，传统集中式存储计算架构已经基本无法满足新时代大规模数据处理业务的需要。因此，云平台开始采用分布式架构来存储和处理大数据，使用包括分布式文件系统HDFS（Hadoop Distributed File System）和大数据并行运算框架MapReduce在内的Hadoop分布式批量计算架构进行计算和处理，但该架构无法获得实时数据，迟滞性高（White, 2012）。因此，人们在处理实时数据时，选择具有不易丢失数据，且低延迟、易扩展、高可用特性的Storm框架，以及具有可获取多源数据、高吞吐量和容错性特性的Spark Streaming框架，将其作为分布式流处理计算的框架（龚芳海, 2020）。

大数据、云计算被广泛地应用于多个行业，对行业的发展以及管理发挥产生着积极的作用，例如物联网（Cai et al., 2017）、医疗健康（Jindal et al., 2018）、互联网营销（Chen et al., 2019）、智慧城市（Mohbey, 2017），这些行业每天都在产生大量的数据。在医疗康养领域，由于人们愈发重视健康，因此产生了大量与健康相关的访问数据，包括在线咨询、检索、社交媒体上健康话题讨论，以及医学实践过程中产生的就诊记录和药物实验记录等。健康数据资源在现有大数据等技术的支撑下，完成了多样运用。例如在搜索引擎中对一些关键词进行监测，完成了传染病、自杀伤害的风险预测活动（Gluskin, 2014; Elkin et al., 2017; Li et al., 2020; Pathare et al., 2020）。利用电子病历、医学影像以及基因序列等数据，辅助完成心血管疾病（Huang et al., 2017; Hemingway, 2018）、癌症（Lott et al., 2018; Tsai et al., 2019）等慢性疾病的临床护理与诊疗工作。对研发药品时产生的大量数据进行梳理、计算和分析，减少了人工筛选和统计所耗费的高昂代价，提高了药物研发的效率（张解和等, 2020）。我国已利用这些方法顺利率先完成了新冠病毒疫苗的研发工作，该疫苗在后续的试验过程中表现良好，具有副作用低、接种后抗体长时间保存的特点和优势。

与其他许多学科一样，大数据在快速发展的同时也面临着许多挑战。首先，大数据中存在最普遍的是如文本一般的非结构化的数据。但若想对非结构化数据运用统计分析等传统的数据分析和处理技术，还必须将非结构化数据转变为结构化数据后，才可继续进行下一步的处理操作。因此，充分释放非结构化数据背后的价值已经成为国内外研究人员们争相解决的重大目标，可以从数据语义的角度探讨数据的处理方法。

人工智能是当前最热门的研究领域之一，它的核心任务就是使机器具备感知、识别、理解、思考、判断等功能，能够很好地模拟人脑的思维过程和机制，使得机器能够更加有效地去处理和分析海量信息，从而更好地服务于人类社会，满足人类的各类需求（郝欣恺, 2020）。机器学习作为人工智能的重要核心技术之一，常用来揭示数据语义中隐藏的知识，在多年的研究和探索中取得了诸多突破，例如利用一些线性回归、决策树等算法来解析数据，从数据中学习，并预测未来某个时刻将出现什么样的事物或者现象（Ghahramani, 2015）。深度学习是模拟人类大脑神经网络进行计算，获取大量训练集以及相关文字信息的一种特殊机器学习方法（Hinton, 2006），在自然语言处理（Severyn et al., 2015）、语音识别（Lee, 2021），图像分类和图像识别（常亮等, 2016; Zhu et al., 2020）等方面都取得了一定的成功。

人工智能方法在医疗康养领域中的应用已成为现代科技的一个热点（Topol, 2019）。基于大数据的人工智能算法为医疗康养服务提供了更加快速、优化的解决方法，人工智能在医疗康养领域的应用不仅完成了技术革新，也改变了传统的医疗康养服务模式。人工智能已在医学影像（孟琭等, 2020）、健康管理（张晨等, 2022）、疾病风险预测（Escott-Price et al., 2017; 魏文斌, 2018）、虚拟助理（Gandhi et al., 2019）、药物设计（Bala et al., 2020）、临床诊疗（Khanagar et al., 2020）等多个医疗康养环节发挥作用。国内外各大医院已开始与人工智能公司合作，以完成对疾病的监测、诊断、治疗和管理。例如美国梅奥诊所与Tempus健康科技公司合作，采用机器学习等AI技术为癌症患者提供个性化治疗；浙江大学医学院附属第一医院联合多家医院和研究机构与阿里健康合作，构建了医学影像智能诊断平台。

人工智能真正的目标是“强人工智能”，即让机器具备人类的思维和推理判断能力，能够自主决策，能够开展各种社会性活动，甚至能够在没有任何人类参与或帮助的情况下进行发明创造。但目前人工智能还不够“智能”，还处于“弱人工智能”阶段，人类依靠机器强大的数据分析和整理能力来完成高重复性任务。虽然人工智能拥有丰富的词汇和语言转换技能，但它并不理解自然语言语句的真正含义，存在可解释性问题（何华灿, 2019）。因此若想进入“强人工智能”阶段，让机器像人类一样快速理解海量的数据，并代替人类去深度挖掘数据资源中的价值，就需要更好的组织形式来表示数据及其语义，减少资源的类型、结构等因素对处理造成的不便影响，提高处理效率和可解释性，并且提高资源的利用程度。在这方面知识图谱是一个处理自然语言的强大工具，带有一定的可解释性，可以成功地完成对语义数据的组织（徐增林等, 2016）。

2012年，谷歌首次提出将知识图谱作为优化搜索的一种方式（Pujara et al., 2013）。知识图谱是运用大数据、深度学习和神经网络等人工智能技术，以符号的形式描述真实世界中概念和概念间关系而构建的结构化知识库，能直观地完成知识表示和推理，具有可解释性，为人工智能的进一步发展奠定了基础（Nickel et al., 2015）。迄今为止，已经有许多成功的知识图谱，如DBpedia、YAGO和Freebase。

将知识图谱应用于医学领域是一种全新的信息科学思维模型，将给人类医疗卫生带来革命性变化（侯梦薇等, 2018）。它能够帮助我们从多个视角观察、认识疾病发展规律及机制，能够通过知识表示和知识挖掘的方法，更加准确地描述疾病发展的不同阶段和不同时期的特点，为医生的诊断、治疗和预防工作提供决策支持。现阶段，医学知识图谱的主要应用方向为医疗智能语义搜索（Koopman et al., 2012; Mourão et al., 2015）、医疗问答系统（Gao et al., 2020; 黄伟等, 2021）和临床决策支持系统（聂莉莉等, 2018; Jia et al., 2019）。

在资源搜索方面，传统的搜索引擎技术是根据用户查询语句的关键词进行字符串模糊匹配，进而对网页进行快速排序（Cai et al., 2014）。然而，在大数据和信息过载背景下，用户无法通过传统的搜索引擎快速、准确地获得自己想要的信息和知识，仍然需要人工来完成对返回结果的排查和过滤工作。

因此，为满足用户希望迅速、充分获取所需信息的需求，Google提出了知识图谱作为传统检索方式的优化方案，它能够以更贴近人类认知世界的方式，更好地组织、表达、管理和理解数据，进而通过推理实现概念检索，返回更加清晰的结构化结果。

在大规模生物医学数据中查找所需信息是一项复杂的工作。结合知识图谱实现语义知识检索的方式是先将生物医学数据建模为生物医学信息库，其次在生物医学信息库的基础上为用户检索的重要字段或内容提供语义知识标识，最后在医学知识图谱中检索查询与用户检索内容相关的实体、关系、属性值，返回图形化的知识结构，达到改善搜索效果的目的。目前，已有多个用于医疗领域的语义搜索引擎，例如国外的Healthline，国内的搜狗明医、360良医等。

随着数据量的不断增加，采集于不同渠道的多模态数据变得更加复杂和富有语义。传统的基于内容的资源管理方法已经无法满足用户对资源的语义理解要求。因此，为了更好地组织数据以表达语义，研究者们采用DIKW框架来表达资源的语义，将其作为解决各种问答系统或问题相关的语义理解问题的重要途径。DIKW是管理学、信息系统、信息科学和计算机科学等各个领域的文献中广泛认可的基本原型之一，研究者期望将资源划分为四类：数据、信息、知识和智慧。这不仅便于他们重新定义资源，而且还使他们能够探索资源之间的关系并建立相应的模型。例如1989年Ackhoff（Ackoff, 1989）提出DIKW概念链模式，亦称为DIKW金字塔，其中数据是最低的层次模型。这种模式在国内外计算机技术学科领域有着广泛的影响。此外，Johnson（Johnson, 2009）还提出了一种特殊的同心圆模型，它颠覆地表明信息是最基本的要素，数据是信息向知识的过渡。然而，在最近的研究中，研究人员提出，DIKW的不同模型应该是互动的，但模型之间的关系还没有明确的定义和讨论（Frické, 2009; Ye et al., 2019）。

近年来，在DIKW前提下，具有可解释和互动的AI环境正在变得可行。DIKW框架已经被广泛应用于生物学（Kangueane, 2018），医学（Rothsching, 1988），工业（Li et al., 2019），安全和隐私保护（Duan et al., 2018; Duan et al., 2019a），设计（Ahmed et al., 1999）等领域，取得了许多创新性成果。Duan（Duan, 2019b）提出了一种对自然语言语义进行概念化的方法，即关系定义一切语义模型（Relationships define everything semantic model，RDXS），该方法可以解决主客观语义表述不一致的问题。但是，到目前为止，人们对DIKW概念的含义以及它们之间的关系仍缺乏统一的认识。

通过各种渠道收集的资源往往是存在数据、信息、知识中两种及其以上模态的混合资源。针对这种跨模态资源处理的现有技术方案，如人工智能方法，主要基于对学习数据分布概率、信息完整性或知识系统逻辑一致性的假定。需要做出更多的假设，以便切实有效地利用数据、信息和知识资源，但这些假设导致相关资源的收集、存储和处理费用增加。因此，本研究提出要通过数据、信息和知识之间的融合和转化，整合跨模态资源的力量和价值，提高资源处理的效率和有效性，最终以更低的成本适应更广泛的人工智能应用场景。

因此，为了更好地理解和处理自然语言等各类资源，我们比以往任何时候都更需要统一DIKW的概念和关系，同时还需对跨模态资源的处理方案进行研究，为加快DIKW的研究工作提供最重要的理论基础。

1.3 本文研究内容

针对数据模态、信息模态、知识模态的内容资源建模和处理方法不明的问题，本文以康养和医疗交互的过程作为背景，首先根据现实世界的观察和对DIKW理论的研究，提出说明人类特定目的的资源是数据、信息和知识资源形成关联和完成转换的关键因素，因此将其从资源中提出作为新的意图资源P_DIK，并进一步明晰数据、信息和知识的概念。

其次，以关系定义一切语义的模型（RDXS）作为主客观语义共同的描述基础，分析资源中存在的语义依赖关系和依赖路径溯源的形式规则，根据数据、信息、知识和意图的关系构建对应的DIKP体系并建立资源转换范式，完成面向DIKW跨模态内容模型的通用建模方案，分析康养和医疗交互背景下的用户体检过程相关资源并构建对应的DIKP模型，将其作为面向DIKW跨模态内容模型的具体实践。

再次，从背景资源中包含同模态内容和跨模态内容进行处理转换的各种实例出发，分析实例中存在的规律并将其梳理成抽象层次的内容资源处理方案，为数据处理和分析提供新的解决思路，同时探讨康养背景下医患出现理解偏差现象的原因，设计一种基于意图驱动和资源融合转换技术来减少交流双方理解偏差的方案，作为跨模态内容融合转换处理技术的应用场景。

最后，基于面向DIKW跨模态内容模型和跨模态内容融合转换处理技术，设计一种DIKP理论下的优化搜索推荐方案，以配合内容资源的传递交流过程，得到更加丰富、精确的搜索结果。

本研究存在的问题和挑战如下：

一是，在理论方面，学术界对DIKW理论中数据、信息、知识和智慧的概念，以及它们中的关系尚未有明确的定义，需要进一步对DIKW概念进行明晰，支撑DIKW内容资源处理的理论发展。

二是，现有工作中缺少跨模态内容建模和处理工作，采用对现实生活中的实例进行归纳总结的方法，得到抽象层面的内容资源建模和处理方案，存在实例数量庞大、混乱的问题，抽象难度高、工作量大，需要对采集到的数据、实例等进行多轮分析和筛选，删去重复类型的实例，进而观察分析实例的相同点，完成抽象的方案设计。

三是，归纳总结出抽象层面的内容资源建模和处理方案后，需要进行现实运用实践以说明该方案的可行性和可迁移性，因此将康养作为实践背景，并且选择具体场景完成建模和处理实践。

四是，选择具体场景完成建模和处理实践时，一方面需要对特定场景有着清晰的认识，另一方面需要充分结合DIKP理论对特定场景和存在问题进行重新定义和阐述，并根据存在问题设计对应的解决方案，最终完成内容资源建模和处理的实践工作。

1.4 本文组织结构

第一章是绪论，主要介绍本文的研究背景和意义，分析和介绍当前数据资源处理技术及其在医疗康养领域的应用，引出将DIKW理论应用于资源建模与处理的新思路，并对主要研究内容和可能存在的问题与挑战进行梳理；

第二章重点介绍相关技术的基础知识，并对其进行总结，包括DIKW概念和架构、知识表示学习、多模态语义处理和语义搜索基本理论；

第三章是面向DIKW跨模态内容总体模型的设计与示例，详细介绍了数据、信息、知识、意图资源从采集到建模的具体过程和方法，并以康养和医疗交互背景下的用户体检过程相关资源建模，将其作为面向DIKW跨模态内容模型的具体实践；

第四章是跨模态内容融合转换处理技术的分析与实现，详细介绍了从同模态和跨模态内容资源之间相互融合转化的各种实例中梳理出的抽象层次的内容资源处理方案，并讨论了康养和医疗交互背景下医患出现理解偏差现象的原因，设计一种基于意图驱动和资源融合转换技术来减少交流双方理解偏差的方案，作为跨模态内容融合转换处理技术的应用场景；

第五章是DIKP理论下优化搜索推荐方案的设计与实现，主要是介绍在资源建模成DIKP图谱的基础上，结合跨模态内容融合转换处理技术，设计一种优化搜索推荐方案，以配合内容资源的传递交流过程，更好地满足用户对资源的搜索需求；

第六章是总结与展望，首先总结了本文的研究内容和贡献，然后对未来的工作进行展望。

1.5 本章小结

本章首先介绍了数据资源处理和康养的研究背景和意义，其次分析和介绍大数据、云计算、人工智能、知识图谱、DIKW等数据资源处理技术的发展现状，并分析总结了现有技术的特点和存在的问题，并且特别说明了数据处理技术在医疗康养领域的应用发展，最后对本文的研究内容、挑战与问题等做了进一步介绍。

2 相关理论与技术

2.1 DIKW概念综述

2.1.1 DIKW层次结构

本文从DIKW理论的角度出发，通过对现实世界的观察和总结，进一步提出了对数据、信息和知识之间关系和转换的理解，进而设计并实现一种跨模态内容的建模和处理方案。

DIKW 层次结构（DIKW hierarchy）是一种说明数据、信息、知识、智慧的层次结构，这一概念最早可追溯至1989年Ackoff对人类思维认知过程做出的相关工作。Ackoff（Ackoff, 1989）认为在DIKW hierarchy中的不同层次之间是基于过滤、简化和转换生成的，由数据可以用来创造信息，信息可以转化为知识，知识可以转化为智慧。并且他还估计人类大脑中的内容中有40%是数据、30%是信息、20%是知识、10%是理解，几乎没有智慧。因此，DIKW hierarchy被认为是一种金字塔形，每一层次的内容都将少于上一层次的内容，较高的层次依赖较低的层次，DIKW金字塔形层次结构如图1所示，它是最为基础、最为人所接受、也最为理所当然的模型之一。

图 1 DIKW金字塔形层次结构

Fig. 1 DIKW Pyramid hierarchy

多年来，许多学者对DIKW hierarchy的元素概念和结构进行了持续的讨论。如Faucher等人（Faucher et al., 2008）对传统的等级制度提出了变革性的观点，对传统的模型进行了逻辑上的扩展，提出了一种E2E模型，该模型在数据、信息、知识和智慧的基础上增添了“存在（Existence）”和“启蒙（Enlightenment）”作为原始模型的补充组件，并强调它们之间是非线性关系。在层次结构方面，DIKW还被展示为框架形式（Silberman., 2007）、同心圆形式（Johnson, 2009）、图形式（Duan et al., 2017）等。但无论表现为哪种形式，都可以理解为DIKW的四个要素是不同的，但又密切相关。

根据DIKW结构对产品或作品进行理解和分析，有助于获取其自身存在的重要性和局限性，因此被信息科学、知识管理等多个领域看作是重要的模型之一。目前，DIKW理论已应用于多个领域，例如网络服务（Schumaker., 2011）、智慧服务（Lobov., 2018）、认知工程（Mishra., 2018）等。

2.1.2 数据研究

对于数据概念的认识，也暂未有明确的定义。在数据的概念化方面，Aukett（Aukett, 2019）将其概念化为客观的事实，Allen（Allen, 2016）将其概念化为表象。对应的，数据作为事实可以通过符号或者标志的方式对客观事物进行描述，而其他的则是观察和测量的产物。在数据的特征方面，Ackoff（Ackoff, 1989）认为数据在转化为有用的资源之前，数据本身是没有用的。Allen（Allen, 2016）认为数据除了自身的存在之外没有任何其他的意义。在类型方面，数据可以是非结构化、半结构化和结构化的。在DIKW的层次结构中，人们认为数据就是数据，无论规模大小、结构形式，区别只在于数据即将得到的处理方式，是人工处理方式还是机器来处理，均可以将数据转化为信息。

除此以外，Buckland（Buckland, 1991）指出数据是通过观察获得的基本单个项类型的数字或其他信息，但就其本身而言，没有上下文，它们就没有信息。Perrotti（Perrotti, 2005）认为数据是一个脱离背景的事件，对系统没有意义，因此是缺乏价值的。Zins（Zins, 2007）认为数据是人类收集的关于世界的原始观测数据，只有最低限度的上下文解释。Wang（Wang, 2015）定义了数据是对现实世界中所有可描述或不可描述对象的抽象表示。而当涉及大数据（Big Data）时，对数据的价值相关的定位开始有所不同。大数据被认为是一项技术，需要通过整合处理的方式来发现大规模不同的、复杂的数据集中的隐藏价值（黄陵, 2021）。

2.1.3 信息研究

Dammann（Dammann, 2018）认为当数据开始变得有意义和有背景时，就会发生将数据转化为信息的过程。但对信息的定义，基于研究它的各个领域理论的不同而有所差异。例如在具有跨学科特征的信息科学领域，Buckland（Buckland, 1991）提出了信息的三种含义：第一种是作为过程的信息，它指的是已知事物的变化。第二种是作为知识的信息，这是对一些事实、主题或事件的交流，在这种情况下，信息是无形的，人们不能直接触摸它或衡量它，因为知识、信仰和意见是个人的。因此，为了传播它，信息必须以某种物理方式表达、描述或代表，如符号、文字。最后，第三种作为一种事物的信息，可归于对象，如数据、文本和文件，因此，它存在有形的特点。信息论的奠基人香农认为“信息是用来消除随机不确定性的东西”。而美国一位名叫N.Wiener的应用数学家则表示：信息是控制系统与外界进行相互作用时产生的。另有学者W.R.Ashbby、凌弓志、蔡长年认为，信息与事物和现象的变化、差异、特殊性有关（叶梦颖, 2020）。另一方面，DIKW结构上，Ackoff（Ackoff, 1989）注意到，信息一般蕴含于某些描述性语言之中，用以解答那些用“谁”、“什么”、“何时”、“多少”之类词语来开头的题目。

然而，在本研究中，信息应只被视为DIKW模型中的一个元素，它不应与知识混淆，也不应与转化为知识的过程混淆。因此，它可以被定义为已获得意义、效用、处理、背景或解释的数据。它也可以被理解为信息或信息流，它们同样指的是具有意义、目的和转化能力的信息属性。此外，像数据一样，它是可量化、有价值的。Liew（Liew, 2013）说明了信息可以通过采集和存储转化为数据。

2.1.4 知识研究

知识作为日常生活中的常用词汇，跟人们的生活息息相关。对知识的哲学研究被称为认识论，但对于知识到底是什么，哲学家们暂无统一的认识。哲学家柏拉图给出了知识的经典定义：一个命题必须满足三个标准才能被认定是知识，即它必须被证明是正确的、真实的和被相信的。但在如今的社会，认识学家们普遍认为，这三个条件是不充分的（Grimm, 2014）。

知识可以被理解为一种能力，分别用于：（1）处理新的情况、信息和背景；（2）理解、领悟、推理，专注于认知处理；（3）做出正确的决定。知识也被定义为信息甚至是数据的集合（Wan, 2014）。知识是有用的、动态的、可量化的，与经验相关，允许行动，包含判断和信念，以及拥有意义、背景和价值。此外，它可以分为两种互补和相互渗透的类型：显式知识和隐式知识。显式知识容易传播、共享和正式化，例如某一主题领域的专业书籍。这些记录的形式知识可以组织成一个知识库，与推理引擎相结合，可以用来构建一个专家系统来推断新的事实或者检测事物的不一致性。隐式知识是一种内化型的知识，难以传播、共享和正式化，例如人们对某些学科或技能的熟悉程度。

应该澄清的是，当显性知识被正式化，离开它的所有人，它就成为了信息（Alhawamdeh, 2001）。而这种信息如果被另一个人所感知，就可以成为知识，这就是知识的互动性（Nurulin et al., 2019）。知识和信息本质上是不同的元素，因此存在知识转化为信息的过程，这个过程通过交流发生（Liew, 2013），而知识转化为数据，则是通过实例化完成的（Sato et al., 2016）。

2.1.5 智慧研究

智慧与知识一样，是以行动为导向的，与人类的经验、价值和判断有关，也是人类的一种能力。但与其他不同的是，它似乎与一些更综合的东西有关，包括对选择适当行为的兴趣，通过分析和综合知识，在全局范围内获得一个积极的结果（Hoppe et al., 2011）。由于DIKW层次模型中是后一层元素包含了前一层元素，因此智慧被认为是有效和高效地使用知识。

尽管在过去人们对智慧进行了深入的哲学研究，但很少有人对智慧进行实证研究。并且在DIKW模型的研究中，虽然大部分学者都承认智慧的重要性，但在具体的研究中却很少提及智慧。因此，Intezari等人（Intezari et al., 2016）发现，很少有人讨论如何将数据、信息和知识转换为智慧。并且有学者开始质疑DIKW模型的可靠性，因为在他看来，智慧不能像数据、信息和知识一样被存储和转移，并且缺少智慧也并不影响知识为人类服务，因此智慧不应该作为一个必备元素被建模为DIKW模型（Hoppe et al., 2011）。

然而，随着多项科学技术手段的快速发展，智慧医疗等智慧建设成为热点话题，因此探讨如何生成并使用智慧是必不可少的工作。其中，Zhang（Zhang, 2016）认为可以通过抽象出知识和道德判断的价值和原理的方法促进知识向智慧转化。Shao等人（Shao et al., 2017a）认为智慧能够回答“5W+H”中与“Why”有关的问题。本研究在叔本华的直觉理论指导下（Schopenhauer, 2012），以智慧为桥梁，平衡推理计算与人类的意志，优化人类的长远目标，促进数据、信息、知识等资源的流通和有效处理（段玉聪等, 2019）。

2.2 DIKW元模型及其图谱架构

本研究为更好地完成跨模态资源的建模，促进资源间的高效流通和处理，以关系定义一切语义的模型（RDXS）作为主客观语义共同的描述基础。如图2是Duan等人建立的DIKW框架元模型（Duan et al., 2018）。

Duan等人（Duan et al., 2017）在原有知识图谱和RDXS模型的基础上，结合DIKW理论，将知识图谱扩展到数据图谱、信息图谱、知识图谱和智慧图谱（DIKW Graphs）。在此基础上，Shao等人（Shao et al., 2017a）构建了一个界面来回答“5Ws+H”问题。在数据模型中可以回答与Who，When和Where有关的问题，在信息模型中回答What问题，在知识模型中回答How问题，而在智慧模型中回答Why问题。

Shao等人（Shao et al., 2017b）提出由数据图谱、信息图谱和知识图谱组成的三层图谱架构进行资源的自动提取和调整，结合对数据图谱的分析以及对信息图谱和知识图谱的抽象优化搜索，从而支持经验知识的整合和对资源元素高效的自动语义分析。在这种DIKW架构的基础上，曹步清等人（曹步清等, 2018）提出了一种价值驱动的事务处理机制，通过协作存储、传输和计算优化来优化时间和空间复杂性。

此外，Duan等人（Duan et al., 2018）将DIKW架构用于隐私保护，根据数据和信息在DIKW架构空间中的存在程度，将目标隐私资源分为显式和隐式两类，提出了隐私内容建模和频率定义的类型化数据保护解决方案框架。Li等人（Li et al., 2021）将群体智能与DIKW理论结合，可以有效地优化和减少DIKW中用于差分隐私的条目数量，从而提高了差分隐私保护的有效性和效率。

图 2 DIKW框架元模型

Fig. 2 Meta model of DIKW framework

2.3 知识表示学习

由于本研究需要在DIKW理论的支持下，将采集到的多种类型混合资源根据资源的语义进行建模等处理，在这个过程中需要将以自然语言形式存在的资源和语义转化为计算机可理解的形式，此时可用知识表示学习作为基础技术。

知识表示学习，是指以实体和实体间的关系为基础，学习它们之间的语义信息并将其表示成向量形式（高峰等, 2022）。现阶段，可以将知识表示学习概括为传统的和改进的知识表示模型（张正航等, 2021）。

（1）传统的知识表示模型

传统知识表示模型是指一些经典翻译模型。包括：TransE模型、TransR模型、TransG模型和TransH模型等（Pham et al., 2017; Cesar et al., 2019）。

TransE模型的思想是：对实体进行低维嵌入、操作，以对各类关系进行建模。其基于机器翻译的思想，用三元组(h, r, t)表示头部实体h和尾部实体t之间利用关系r所完成的翻译，如图 3所示。

图 3 TransE模型向量空间

Fig. 3 TransE model vector space

如果用同样的语义空间对不同的实体关系进行映射，会使得模型的表达能力受到限制。为解决上述问题，TransR模型被提出，该模型为每个关系构造与之对应的向量空间，从而可以用不同的向量空间表示实体和实体关系（Lin et al., 2015）。考虑到TransR模型使用相同的投影矩阵对头部实体h和尾部实体t进行映射，而它们所表示的类型、属性和含义可能大不相同，使得TransR模型的表达能力受限（Ren et al., 2019）。此外，TransR模型中的投影矩阵只是对关系类型作了考虑，没有对实体和实体间关系的交互进行探讨（Bogaerts et al., 2018）。在知识图谱中，可能存在多重关系语义问题（Caruccio et al., 2019），TransG模型针对关系r的不同语义，采用高斯混合模型对头部实体h和尾部实体t之间的关系进行描述，在训练的过程中同时进行聚类，并利用与关系相对应的特定组件矢量对三元组(h, r, t)进行嵌入表示（Eftimov et al., 2019）。

（2）改进的知识表示模型

在知识表示学习中，一些新的模型被陆续提出。相较于传统模型，JAPE模型的优点在于它可以适用于跨语言的实体对齐，不足之处在于其未考虑到多重映射关系（Sun et al., 2017）。ConvE模型在实体关系表达和模型性能上优于传统模型，但其缺点是实体关系向量嵌入之间的交互不足（Dettmers et al., 2018）。

2.4 知识推理

本文中要讨论的同模态和跨模态资源的关联融合过程实质是对已有的资源做推理工作，而现有的知识推理技术可为本文提供技术基础。

知识推理在社会进步发展中占据着重要地位，是一个从思考到认知到理解再到创新的螺旋上升过程。不同研究者，根据研究的侧重点不同，对知识推理给出了各类定义（孙建强等, 2021; 崔员宁等, 2022）。总的来说，知识推理可理解为从已知知识出发，到未知知识的推理过程。图4是对知识推理的分类。

在知识图谱中，用三元组(h, r, t)对知识进行存储，因此，知识推理是对实体和实体之间的关系进行推理。既包括对实体的推理，也包括对实体之间关系的推理。例如，由头部实体h和关系r，推理出可能的尾部实体。或者已知头部实体和尾部实体，推理出其中的关系。

图 4 知识推理分类

Fig. 4 Classification of knowledge reasoning

随着数据量的激增，传统的知识推理已无法适用于海量数据场景，基于深度学习的知识推理占据了主要地位，表现出了优于传统知识推理方法的性能。Chen等人基于LSTM（Long short-term memory，长短期记忆模型）和多模态信息融合，对猪肉价格进行预测，得到了更好的实验结果（Chen et al., 2021）。

2.5 语义搜索

面向DIKW的跨模态内容建模研究和处理实践过程还涉及语义资源的搜索问题，由于不同用户的认知存在差异，因此在对他们的资源进行查询处理时需要考虑资源的语义情况，因而需要对资源的语义搜索相关技术进行学习。

传统搜索技术只是针对用户输入语句的字面本身进行搜索，常采用关键词匹配和倒排索引等技术，其查准率和查全率均不理想。区别于传统搜索技术，语义搜索旨在挖掘用户语句背后隐藏的真实意图，以此作为搜索的引擎，能够返回最符合用户需求的搜索结果。借助于语义搜索技术，可以将推理应用到搜索过程中，更有效地捕捉信息资源。

现阶段语义搜索的研究重点之一在于语义挖掘，特别是对查询语句和文档等目标资源间关联性的挖掘探索，以待能够对查询有更深刻的理解，进而是资源搜索的查准率得以提高。Jothilakshmi等人（Jothilakshmi et al., 2013）在领域模型基础之上，提出了一种融合领域知识、WordNet术语词汇和随机最大熵-隐马尔科夫模型的语义查询扩展方法，得到了较好的实验结果。Bashar等人（Bashar et al., 2014）基于维基百科中的语义标注，提出了一种语义查询扩展方法，用于查询词消歧和丰富查询词语义，该方法已在专利搜索和分类上有较好地应用。Zhao等人（Zhao et al., 2015）提出了一种面向物联网的，具有主题发现和语义感知功能的检索系统Acrost，该系统基于正则表达式和条件随机场对元数据进行提取，以实现语义感知检索。

除了语义挖掘外，语义搜索的研究还用于对用户特征进行挖掘、用户画像和为不同用户提供个性化推荐等领域（黎雪微等, 2019; 李昆仑等, 2020）。

2.6 本章小结

本章是相关理论和技术综述。首先介绍了DIKW架构的相关概念和发展情况，然后介绍了基于RDXS的元模型及其图谱架构。接着本章还介绍了关于知识表示学习、知识推理和语义搜索的基础理论知识和技术。

3 面向DIKW跨模态内容资源总体模型

3.1 研究动机

在这个信息技术日新月异的年代，人们在日常行动过程中产生大量可被感知并存储的数据资源，例如在人类在从出生到死亡的全生命周期内不间断进行着的康养过程中，为保证自身健康状态处于“健康—亚健康—疾病—康复—健康”有利循环而产生的与生命、健康有关的数据，以及人群整体在探索、保障人类健康时通过各种医疗实践发现、总结出的医学知识，这些资源可被统一称为康养内容资源（Wellness Content Resources，WC_RES）。

为了更加充分地处理和利用像康养内容资源一样大量存在的数据，从资源中挖掘出更多有价值、意义的新资源，本文期望从更好地组织数据和促进自然语言理解这两个角度出发。由于传统的数据资源组织方式不能很好地支持数据的充分利用，因此，如何组织数据就成为我们面临的挑战。这就是本章节所要讨论的问题。在这方面，我们希望通过一种新的组织方法将这些数据集汇集在一起，以便更好地推动数据资源研究和实践。

对此，DIKW架构作为一种新的资源组织形式和自然语言标记术语，在各个领域得到了广泛的应用。该架构将收集到的数据划分成DIKW的多个模态，其中数据模态和信息模态包含具体的数据和信息，如时间、生物资源、身体表征、位置和线上诊断服务等，而其他DIKW模态包含进一步的语义和抽象特征。

但是，现有的研究对于数据、信息、知识、智慧的含义，以及模态内部关系、不同模态之间的关系和组织结构等也缺乏一个统一的认识，这对采用DIKW框架对资源进行分析处理造成了不便。具体来讲，被划分为数据、信息、知识模态的资源本身蕴含丰富的语义和极高的利用价值，如果不对它们进行梳理，任其随机杂乱分布，则会对类型化资源的更充分利用造成极大的阻碍。因此本文从同模态资源存在关系，以及跨模态资源存在关联的角度上进行资源的组织和建模，并在具体实例下进行建模实践。

3.2 面向DIKW跨模态内容模型

3.2.1 概念抽象层构建

（1）内容资源概念化过程

为了布局一个统一的讨论目标，将需要进行系统描述和具体处理的所有内容统一定义为资源（Resource，RES），并不关注内容资源的表达形式是文本型（如临床症状描述、药物名称等）、数字型（如生命体征数据、药物剂量等）、图像型（如各种影像学检查图像资料）、音视频型（如胎心音频、医学院授课视频），也不关注内容资源的结构是结构化型（医疗管理信息系统HIS）、半结构化型（医学教学资源库）还是非结构化型（医疗影像系统）。

公式（3-1）

本文的内容资源概念化过程参考Duan等人（Duan et al., 2018）的已有工作，设定内容资源的建模开始于人类对现实世界的观察Observation，其中现实世界包括可被观察感知到的客观存在的事物THG。在认知上可将事物定义为在给定的t时间内以Human(hmn)为代表的人类观察的基本目标。将一个具体的事物表示为THG(thg)。

公式（3-2）

内容资源的概念化Conceptualization是指在对现实世界中某个具体事物THG(thg)的观察过程中，将观察采集到的资源进行存在性判断Existence()以及同一性判断Sameness()操作，在认知上将思维过程的输出，即观察感知资源，与THG(thg)的现有概念相匹配，完成将感知资源映射到已有概念的过程。内容资源的概念化存在确定资源语义的目的和意义，其中语义表现为各种现有概念内容与人类相关的关系。

公式（3-3）

①存在性判断Existence()

存在性判断操作Existence()是确定人类感知到的资源与客观现实世界是否存在联系的重要步骤。

当感知内容资源与客观现实世界事物存在关联时，判断结果可进一步分为客观性存在Existence_Objective和概念性存在Existence_Conceptual。Existence_Objective表示感知内容资源被证实是现实世界中客观存在的，可用逻辑语言“True/False”回答，而Existence_Conceptual则表示感知内容资源与人的主观评价“Yes/No”相关，两者均属于肯定项语义。捆绑到概念性存在的内容可以是人类对现实世界进行想象的或不正确的提议内容，存在不完整、不一致、不精确等性质。

公式（3-4）

用NoneExistence表示Existence的否定项，属于否定语义。NoneExistence_Confirmed中存在几种不同的情况：

公式（3-5）

其中，“Null”表示感知内容资源与客观现实世界无关联，无关联的情况包括主客观均不存在关联即实际上不存在关联，用Existence_Objective(False)表示，以及人类主观上不知道存在关联但在客观即实际上存在关联，用False(Existence_Objective(True))表示：

公式（3-6）

Inconsist_Objective表示关联在客观上存在前后不一致的情况。因为随着时间流逝，在一段时间内，事物或关联可能消失或改变，即相关资源和客观现实世界中的某个事物过去拥有关联，但现在却不存在关联，导致出现前后不一致的情况。

公式（3-7）

②同一性判断Sameness()

同一性判断操作Sameness()是为了判断人类感知到的新资源与客观现实世界中已有概念相同或不同的过程。

当观察到一个新事物THG(thgN)，将THG(thgN)与现存已知的具体事物THG(thgE)的现有标签进行同一性判断：

A. 若判断结果是肯定的，则将THG(thgN)映射到THG(thgE)；

B. 若判断结果是否定的，则通过函数CreateID为THG(thgN)创建一个新的标识。特殊的，当THG(thgN)和THG(thgE)存在部分相同时，两者根据相同的属性部分进行划分可能属于同一个类Class，或THG(thgN)为THG(thgE)的变体，该特性会为接下来进行资源体系化建模提供便利。例如人类从现实世界中观察到病毒THG(thgN(VirusN))，经对比后发现现实世界中没有完全相同的已有病毒，因此对该病毒进行标识创建，但对比研究中同样发现该病毒存在冠状病毒的相关性质，因此判定该病毒与冠状病毒有关，可能是冠状病毒的变种。

公式（3-8）

在以人类“Human”和存在“Existence”两个概念核心的存在与识别层面建模观点启发下，构建的概念化过程模型如图5所示（Duan et al., 2018）。其中实体Entity和关系Relation是资源完成概念化建模的重点，它们既是观察的对象，又是表达观察的元素。识别Identification和记号Notation是同一性判断阶段的任务，其中识别Identification标志着观察或推理的结果是相同或不同的，而记号Notation是用来明确地给Identification一个存在符号。对同一性的识别可以被概括为实现抽象性。语义是基于实体的关系，证实了人类的意图。概念Concept可以通过其统一性unity被归类为实体Entity。实体继承了实例，因为实体是根据其统一性来判断实例的。

图 5 内容资源概念化过程模型

Fig. 5 Model of the content resource conceptualization process

（2）内容资源类型化过程

为了更好地处理内容资源，迅速而充分地发掘资源的存在价值，本文从内容资源概念化出发，利用DIKW理论架构这一自然语言标记来促进表达与理解，把基于类型Type或类Class的内容资源划分为数据、信息和知识模态。

经过对现实世界的观察和对DIKW理论的研究，本文认为数据、信息和知识模态的资源模型应该是互动的，并且提出人类的特定目的是数据、信息、知识资源进行转换的关键因素，是一种中间性资源，是将DIKW的不同模型联系起来并将它们统一为一个整体的有机力量。因此，我们将说明人类特定目的的资源从资源中提出并构成新的资源，将其称为意图。

将数据、信息、知识模态的资源和意图资源统称为类型化资源（Typed Resource，TypedR_DIK）。

公式（3-9）

类型化意味着在定义或描述一个事物时，它可以由多维度类型Type或类Class的相关资源来完全定义。这种思想将资源的建模从实例或值转移到纯粹的类型上来，此时该类的所有下属实例均可共享这种识别方法。例如康养用户对一个医生A的观察可以通过其在认知上建立的多维度关联类型资源来定义，如医生的姓名、执业医院、执业科室、擅长方向等，那么对其他医生的观察同样可以从这些关联维度上进行。

公式（3-10）

类型或类的分层扩展形式使得在对类型化资源的计算上，可以通过规划所要跨越的类型/类层次的深度和范围，以及通过经济地确定利益相关者的预期成本和投资，实现对计算所需的准确性和对正确性的概率适应性。这种价值驱动的、成本与收益权衡的模型可以很容易地扩展到由类型化资源节点组成的图中。

对意图、数据、信息和知识的概念进行明晰，有助于对DIKW的概念和关系进行统一，为加速推进DIKW资源处理的研究提供最重要的理论基础保障。

①意图资源定义

意图（Purpose，P_DIK）代表了人类与特定事物密切相关的某些外显或内隐的目的，它是人类对所要实现和怎样实现的明确表达。从本质上讲，意图是人类为解决问题或满足需求需要的东西。意图可简单理解为一个函数，存在蕴含人类真实期待的输入Input和输出Output，输入Input可与已有的数据、信息、知识等资源对应，输出Output是经函数运算后得到的结果，因此P_DIK可表示为：

公式（3-11）

P_DIK通过关联现有内容或背景中存在的资源，为资源带来具体的语义或者新的语义，例如P_DIK与D_DIK捆绑形成的组合可为D_DIK带来具体的语义，使P_DIK与D_DIK捆绑后得到对应的I_DIK。面包棍作为数据，在特定意图“解饿”的驱动下，面包棍被认为是食物；当特定意图是“娱乐/游戏”时，面包棍是玩具；在极端情况下，可认为面包棍是武器，特定意图是“攻击他人”。因此，相同的数据可在不同意图的驱动下，获得差异极大的信息，图 6是具体的实例。这种意图驱动的类型化资源架构称为DIKP架构，如图 7所示。

图 6 DIKP实例

Fig. 6 DIKP example

图 7 DIKP架构示意图

Fig. 7 Schematic diagram of the DIKP architecture

②数据资源定义

数据资源（Data_DIK，D_DIK）是对现实世界进行直接观察而获得的离散元素，包括实体和概念的存在，可用Ex(Is(a))表示实体x具有属性a。D_DIK可从源头资源中分离得到，也可通过同模态、跨模态资源关联融合处理后得到新的D_DIK。

D_DIK虽然可被人或计算机等识别匹配，但在没有上下文的情况下不具有任何意义和语义。它不与人类的特定目的相关联，不与自身存在之外的特定语义捆绑在一起。数据结构和表现形式多样，例如“0, 1, 2, ...”、“医生基础信息表”、“医院药物统计表”等都属于D_DIK。

D_DIK是人类对现实世界的直观观察结果，与人类自身的认知直接相关，因此无法保证D_DIK的正误，可能存在错误或不明确的D_DIK。例如不同人员对时间长短的认知不同，在对某个时间长短进行观察记录时，不同的人有不同的记录结果。

公式（3-12）

一个D_DIK的频数Frequency标志着其在某个观察维度上的相同存在，也可表示为D_DIK在使用过程中重复使用的次数，包括添加频数、更改频数、删除频数和选择频数，可作为评价数据资源重要性的测度之一，因此频数也是D_DIK的重要组成部分。

公式（3-13）

③信息资源定义

信息资源（Information_DIK，I_DIK）与人类的特定意图密切相关，是DIKW之间以人的目的意图为导向的内容，有上下文具体解释含义，可被人理解。I_DIK记录D_DIK所代表的事物之间的互动，可用于表达、分析、挖掘不同实体之间的交互情况。

将已有数据资源与至少一个的特定意图连接、绑定，数据根据特定意图进行定向反应和表达，可实现从数据模态到信息模态的资源转换，得到具有背景语义的信息资源。信息主要由数据和意图组成，可将I_DIK看作一个二元组，并且信息资源出现的频数Frequency同样可作为评价资源重要性的测度，I_DIK可表现为如下形式：

公式（3-14）

④知识资源定义

知识资源（Knowledge_DIK，K_DIK）可由D_DIK和I_DIK经过结构化、形式化的统计和演绎得到，是基于概率计算或归纳、演绎或溯因推理构建的，描述了类型/类级别的内容之间存在的完整性抽象关系。这些类型/类级别的内容可被总结为一条条知识资源。对K_DIK进行推导是将类型级的规则和结构应用到实例级，而K_DIK的归纳是将实例级的观察应用上升到类型级。

公式（3-15）

知识资源反映了某些规律，具有一定的正确性、稳定性和复用性。根据知识的正确性和稳定性可将知识分为常识性知识(Common Sense Knowledge)和经验性知识（Empirical Knowledge）。其中常识性知识是经过多次验证被证实真实可靠的知识，其稳定性高，不易在今后的研究学习中遭到修改，例如“地球是圆的”；经验性知识是通过归纳推理方式获取的，可能并不完全正确的知识，其稳定性低，较易在今后的研究学习中遭到修改，例如人们总结出的各种治疗偏方，很多均被现代科学证明为不可行，需要进行删除。根据知识的复用性可将知识分为可复用知识（Replexable Knowledge）、不可复用知识（Unreusable Knowledge），其中可复用知识是指可多次重复使用的知识规则，例如七步洗手法；不可复用知识主要指针对特定处理事件而制定的知识规则，不可重复使用，例如会议投票规则规定“一人三票，票数高者获选”。

公式（3-16）

同样可将K_DIK看作一个二元组，并且知识资源出现的频数Frequency可作为评价资源重要性的测度，K_DIK可表现为如下形式：

公式（3-17）

3.2.2 同模态关系体系层构建

每个人都有自己对事物的看法和认知，因此不同的人存在不一样的数据、信息、知识、意图和智慧。属于同一种模态的不同资源自身内部存在关系，根据关系对TR_DIK进行语义层面的梳理和体系建模操作，得到可用于存储、传输和计算的DIKP图谱，可使原本分布杂乱的资源变得条理清晰，有助于资源完成更加复杂的处理操作，提高资源处理效率。

（1）数据体系分析与模型构建

隶属于数据模态的不同D_DIK间存在一种重要关系，可被概括为面向对象的父子包含关系，简称父子包含关系（the object-oriented parent-child inclusion relationship，PCR）。其中对象是指D_DIK表示的实体或关系。

①数据体系分析

PCR是指不同对象所代表的D_DIK在语义层面上既存在继承又存在包含的关系。例如一般健康检查、内科检查、心脏检查、心率检查是不同的对象，存在实例：心率检查是心脏检查，心脏检查是内科检查，内科检查是一般健康检查。这些对象拥有可被继承的、相同的性质、特征或内容，并且在语义方面存在具体的上下层级包含关系，即心脏检查是内科检查的一部分，内科检查包括心脏检查。反映为一个D_DIK指代的实体或概念归属于另一个D_DIK指代的实体或概念，例如在实例“心脏检查是内科检查”中，内科检查的语义范围包含心脏检查的语义范围，那么“内科检查”就可作为该包含语义的上级（主体），“心脏检查”作为对应包含语义的下级（施用对象）。

父子包含关系最简单的表现形式是“Is_a”，语义表达为“D_B是D_A”，语义覆盖范围表现情况为“D_A覆盖D_B”。可用表达式D_B(Is_a(D_A))表示数据对象A和B具有父子包含关系，且B是A，B继承A的一部分性质、特征或内容，A的语义包含B的语义。

父子包含关系存在传递性。即若不同数据资源存在以下情形：D_A是D_B，D_B是D_C，那么可以得到D_A是D_C。利用传递性可验证数据资源的语义相关性，帮助未直接说明父子包含关系的数据资源进行关系确定，大大提高关系确定效率，减少冗余。数据资源父子包含关系的传递性可形式化表示为：

公式（3-18）

对确认存在父子包含关系的D_DIK，用“父数据D_Father”代表在语义覆盖范围、可解释范围较大的数据对象，用“子数据D_Son”代表在语义覆盖范围、可解释范围较小的数据对象，具体表现情况为“D_Son”继承“D_Father”的某些性质或特征，语义覆盖情况是“D_Father”包含“D_Son”，语义解释范围由“父亲D_Father”到“儿子D_Son”进一步缩小，但说明指代的语义更加具体，可以提供更多的价值。

②数据模型构建

根据父子包含关系进行梳理、构建得到的Data Model具体表现形式多样，可表现为树形：树上的节点表示D_DIK，父节点对应D_Father，子节点对应D_Son，两者之间用直线或由子节点指向父节点的、可表示关系语义“Is_a”的带箭头直线相连。树形图谱的上下层级结构可以清晰表达出数据的PCR。如图 8所示。

除树形结构外，Data Model的具体表现结构不受限定，还可表现为有向图、栈、队列等。例如可用如图 9所示的有向图来表示。

本文统一规定数据资源用黑色的椭圆和形状内部的文字表述共同表示，选择树形结构作为Data Model的建模结构。

图 8 数据模型示意图（树形图）

Fig. 8 Schematic diagram of the Data Model (tree graph)

图 9 数据模型示意图（有向图）

Fig. 9 Schematic diagram of the Data Model (directed graph)

（2）意图体系分析与模型构建

描述人类特定目的的意图资源之间同样存在关系。意图间存在的主要关系有两种，分别是包含关系与逻辑关系，对这两种关系进行梳理连接，可以将模糊的意图细节化，清晰说明意图资源这个明确的目标以及如何实现该目标。

①意图体系分析

A. 包含关系

意图资源中存在的包含关系（Inclusion Relationship，IR）是人类为完成特定目标而将大意图拆分，分解为若干个小意图时表现出来的。此时具有包含关系的不同P_DIK之间具有某种相同性，不同P_DIK在语义覆盖范围、可解释范围存在区别，表现为语义覆盖范围大的P_DIK包含语义覆盖范围较小的P_DIK，即大意图包含小意图，若想实现大意图，应完成大意图分解出的小意图，完成小意图后可进一步实现大意图。

意图间包含关系最简单的表现形式是“Is_for”或“Is_include”，语义表达为“P_B是为了P_A”或“P_A包含P_B”。可用表达式P_B(Is_for(P_A))或P_A(Is_include(P_B))分别表示意图P_A和P_B具有包含关系，且P_B是为了达成P_A，P_A可被具体分解为P_B。

意图间包含关系存在传递性，如果意图资源P_A是为了P_B，P_B是为了P_C，那么P_A一定是为了P_C。利用传递性可将意图进一步分解，与其他资源关联融合时可得到更多新资源。意图资源包含关系的传递性可形式化表示为：

公式（3-19）

对确认存在包含关系的意图资源，完成该意图所需的具体任务更加复杂、可解释范围更大的P_DIK是“父意图P_Father”，被P_Father的具体任务覆盖且可解释范围小的P_DIK是“子意图P_Son”。包含关系主要表示不同层级P_DIK的关联情况，是深层次、内部的关联，可由包含关系确定不同P_DIK的具体层级，P_Father应处于P_Son的上层。

B. 逻辑关系

意图资源中存在的逻辑关系（Logical Relationship，LR）具体是指与关系“and”、或关系“or”以及非关系“not”。逻辑关系更为直白，通常存在于同属于某一父意图的不同子意图中，这些子意图可看做处于同一层级。

与关系“and”表示同一层级的不同P_DIK联合起来才可以达到上层P_Father所表示的含义，可用符号&表示。

或关系“or”表示同层级的P_DIK均可单独达到上层P_Father所表示的含义，不需要进行联合，可用符号|表示。

非关系“not”表示同层级的两个P_DIK之间存在语义上的矛盾，虽然同层级的P_DIK可单独或与其他意图资源联合达到上层P_Father所表示的含义，但由于两资源存在矛盾而无法通过联合达到上层P_Father所表示的含义，可用符号!表示。

公式（3-20）

逻辑关系最简单的表现形式是“Is_and”、“Is_or”、“Is_not”，P_B(Is_and(P_C))表示意图P_B和P_C具有逻辑与关系。

意图资源中的逻辑关系可由其他已有、确定的逻辑关系推理得到。拥有相同上层父意图的同层不同P_DIK用P_A、P_B、P_C表示，已知P_A与P_B、P_B与P_C之间的逻辑关系，可以推理出P_A与P_C之间的逻辑关系，例如P_A与P_B之间存在与关系，P_B与P_C之间存在或关系，则P_A与P_C之间的关系应为与关系，用符号化表示为：

公式（3-21）

相关逻辑推理可能情形如下表所示，其中Relation(P_A,P_B)和Relation(P_B,P_C)是已有的逻辑关系，Relation(P_A,P_C)是对应推理得到的逻辑关系。

表 1 逻辑关系推理表

Table 1 Logical relationship reasoning table

存在关系	可能情形
存在关系	1	2	3	4	5	6	7	8	9
Relation(P_A,P_B)	and	and	and	or	or	or	not	not	not
Relation(P_B,P_C)	and	or	not	and	or	not	and	or	not
Relation(P_A,P_C)	and	and	not	and	or	not	not	not	and/or/not

若意图资源间同时存在部分包含关系和逻辑关系，可根据部分关系推理出其余P_DIK间的具体关系。例如P_B(Is_for(P_A),Is_and(P_C))表示意图P_A与P_B具有包含关系，且P_B是为了P_A，意图P_B与P_C具有逻辑与关系，可推出意图P_A与P_C同样具有包含关系，即：

公式（3-22）

运用资源间已有的关系推理出新的关系，可显著提高资源关系的分辨效率，增强系统间的概括性，减少资源关系描述冗余。

②意图模型构建

意图模型Purpose Model同样以树形结构为主要表现形式，父节点表示P_Father，其下方连接的子节点表示P_Son。两者之间用直线或蕴含“Is_for”关联语义的、由子节点指向父节点的带箭头直线相连。

Purpose Model除树形结构之外还需在模型中表现出同层级不同P_DIK之间存在的逻辑关系，可用以下方式进行表示：①图中用相同的虚线连接同P_Father下同层级P_DIK节点，表示不同P_DIK之间存在逻辑关联，具体的与或非关联情况可在虚线中进行标注；②构建不同的连线进行区分表达；③在同层级不同P_DIK与上层父节点P_Father相连的连线中添加弧线并进行标注。意图模型如图 10所示。

图 10 意图模型示意图

Fig. 10 Schematic diagram of the Purpose Model

（3）信息体系分析与模型构建

信息资源作为数据对特定意图的响应结果，主要存在两种关系，分别是包含关系与逻辑关系，可以表现出I_DIK之间连接和传递推导的现象。信息主要由数据和意图组成，可由数据和意图存在的关系或对应的数据体系、意图体系辅助判断不同信息之间的关系。信息模型可表达不同信息之间存在的动态变化和因果现象。

①信息体系分析

A. 包含关系

信息资源中存在的包含关系是指具有相同性的不同I_DIK在语义上存在包含的情形，或说明事物发展过程时信息资源出现连接和传递推导的情形。此处相同性是指不同I_DIK是由相同或处于同一棵体系树上的数据或意图组成，或伴随同一事物发展存在。此时对具有相同性的I_DIK进行分析，存在语义覆盖范围大的I_DIK包含语义覆盖范围较小的I_DIK的现象，该现象与Data System中的父子包含关系和Purpose System中的包含关系类似，但信息资源中包含关系的复杂程度更高，进行分析运用时的难度也更高。

信息资源中包含关系最简单的表现形式是“Include”，语义表达为“I_A包含I_B”，语义覆盖范围表现情况为“I_A覆盖I_B”。可用表达式I_A(Include(I_B))表示I_A和I_B具有包含关系，且I_A包含I_B。I_A(Include(I_B))也可表示成I_B(Is_Included(I_A))，两种形式具有相同含义。

信息间包含关系存在传递性。如果信息资源I_A包含I_B，I_B包含I_C，那么I_A一定包含I_C。在描述并建模信息资源模型时利用充分传递性和冗余规则可以提高效率，而不必罗列所有相关包含的信息资源而使系统缺乏概括性。信息资源包含关系的传递性可形式化表示为：

公式（3-23）

将语义覆盖范围、可解释范围较大的I_DIK看作是“父信息I_Father”，令其包含的语义更为具体、覆盖范围较小的I_DIK看作是“子信息I_Son”，I_Father应处于I_Son的上层，可由包含关系确定不同I_DIK的层级表现情况。

B. 逻辑关系

信息资源中存在的逻辑关系具体是指与关系“and”、或关系“or”以及非关系“not”，通常存在于拥有相同的上层I_Father的不同I_DIK中，与意图资源中存在的逻辑关系类似。逻辑关系最简单的表现形式是“Is_and”、“Is_or”、“Is_not”，I_B(Is_and(I_C))表示信息I_B和I_C具有逻辑与关系。

与关系“and”表示I_Father包含的不同I_DIK需要进行联合才可以完全在语义上达到上层I_Father所表示的含义，与关系可用符号&表示。可形式化表达为：

公式（3-24）

或关系“or”表示同层级的I_DIK不需要互相联合即可由自身经过推理得到上层I_Father所表示的含义，或关系可用符号|表示。可形式化表达为：

公式（3-25）

非关系“not”表示同层级的I_DIK之间存在语义上的矛盾，虽然同层级的I_DIK可单独或联合其他I_DIK达到上层I_Father所表示的含义，但由于存在矛盾而无法通过联合达到上层P_Father所表示的含义，非关系可用符号!表示。可形式化表示为：

公式（3-26）

信息资源中的逻辑关系可由其他已有或已确定的逻辑关系推理得到，信息资源相关逻辑推理与意图资源间逻辑推理方法相同，如表1所示。例如拥有相同上层I_Father的不同I_DIK用I_S1、I_S2、I_S3表示，已知I_S1与I_S2之间存在与关系，I_S2与I_S3之间存在或关系，则I_S1与I_S3之间的关系为与关系，即：

公式（3-27）

若I_DIK间同时存在包含关系和逻辑关系，已知部分I_DIK间的具体关系，可推出其余I_DIK间的具体关系。例如I_B(Is_Included(I_A),Is_and(I_C))表示信息I_A和I_B具有包含关系，且I_A包含I_B，信息I_B和I_C具有逻辑与关系，可推出信息I_A和I_C同样具有包含关系，即：

公式（3-28）

运用资源间已有的关系推理出新的关系，可显著提高资源关系的分辨效率，增强模型内部的概括性，减少资源关系描述冗余。

②信息模型构建

Information Model以树形结构为主要表现形式，父节点表示I_Father，相连子节点表示I_Son。两者之间用直线或蕴含“Is_Included”关联语义的、由子节点指向父节点的带箭头直线相连。Information Model中的节点用圆角矩形表示，虚线框内是信息资源具体内容，可表示为三种形式：①文字信息；②形式化符号；③分解为存在关联关系的D_DIK节点和P_DIK节点，以及D_DIK和P_DIK进行关联融合后产生对应的结果节点I_Result，其中将D_DIK和P_DIK用带关联符号的虚线相连表示进行关联融合过程，用带箭头的虚线表示进行关联融合后产生对应结果，三种资源及它们之间的连线作为一个整体被圆角矩形确定，用来表示一条I_DIK。

Information Model中同层级的不同I_DIK之间存在的逻辑关系可参考意图资源间逻辑关系表示方法进行表示。信息模型示意如图 11所示。

图 11 信息模型示意图

Fig. 11 Schematic diagram of the Information Model

（4）知识体系分析与模型构建

知识资源来自对数据和信息资源进行结构化、形式化的统计和推演，主要存在包含关系和逻辑关系，可以表现出知识之间的传递推理过程。

①知识体系分析

A. 包含关系

知识资源中存在的包含关系是指在不同K_DIK之间存在组成数据、信息相同或存在关联的基础上，不同K_DIK所代表的语义范围存在区别，出现具体表现为语义覆盖范围大的K_DIK包含语义覆盖范围较小的K_DIK的情况，或伴随推理过程知识资源出现转化的情形。

知识资源中包含关系最简单的表现形式是“Include”，语义表达为“K_A包括K_B”，语义覆盖范围表现情况为“K_A覆盖K_B”，K_A(Include(K_B))表示知识K_A和K_B具有包含关系，且K_A包括K_B。K_A(Include(K_B))也可表示成K_B(Is_Included(K_A))，两种形式具有相同含义。

知识资源中包含关系同样存在传递性，如果知识资源K_A包含K_B，K_B包含K_C，那么K_A一定包含K_C。

公式（3-29）

对确认存在包含关系的K_DIK，将语义覆盖范围、可解释范围较大的K_DIK被认为是“父知识K_Father”，被K_Father的语义覆盖且可解释范围小的K_DIK被认为是“子知识K_Son”，语义解释范围由K_Father到K_Son进一步缩小。由包含关系规定的“K_Father应处于K_Son的上层”可帮助确定不同K_DIK的上下层级具体表现，对K_DIK的关联情况进行解释说明。

B. 逻辑关系

知识资源中存在的逻辑关系具体是指与关系“and”、或关系“or”以及非关系“not”。逻辑关系通常存在于拥有相同上层K_Father的不同K_DIK中，与意图资源、信息资源中存在的逻辑关系类似。逻辑关系最简单的表现形式是“Is_and”、“Is_or”、“Is_not”，K_B(Is_and(K_C))表示知识K_B和K_C具有逻辑与关系。

与关系“and”表示同一层级的不同K_DIK联合起来才可以推理总结达到上层K_Father所表示的含义，即若想由特殊具体的知识推导出一般性知识，需要多个个别事物的知识或特殊具体的知识联合，才能的得到范围较大的知识或一般性知识。与关系可用符号&表示。形式化表达为：

公式（3-30）

或关系“or”表示同层级的K_DIK均可通过推理得到上层K_Father所表示的推理结果，不需要互相联合，或关系可用符号|表示。形式化表达为：

公式（3-31）

非关系“not”表示同层级的K_DIK之间存在语义上的矛盾，虽然同层级的K_DIK可单独或联合其他K_DIK进行推理从而达到上层K_Father所表示的含义，但由于存在矛盾而无法通过联合推理得到上层K_Father，非关系可用符号!表示。

知识资源中的逻辑关系可由其他已有、确定的逻辑关系推理得到。拥有相同上层K_Father的同层不同K_DIK用K_S1、K_S2、K_S3表示，已知K_S1与K_S2、K_S2与K_S3之间的逻辑关系，可以推理出K_S1与K_S3之间的逻辑关系，相关逻辑推理与P_DIK、I_DIK中逻辑关系推理类似。

若已知知识资源中的部分包含关系和逻辑关系，可推理出相关资源存在的其他关系。例如K_B(Is_for(K_A),Is_and(K_C))表示知识K_A和K_B具有包含关系，且K_B是为了K_A，K_B和K_C具有逻辑与关系，可推出知识K_A和K_C同样具有包含关系，即：

公式（3-32）

②知识模型构建

知识模型Knowledge Model以树形结构为主要表现形式，父节点表示K_Father，其下方连接的子节点表示更加具体的K_Son。两者之间用直线或蕴含“Include”关联语义的、由父节点指向子节点的带箭头直线相连。Knowledge Model中的节点用矩形框表示，矩形框内的内容除了直接表示和形式化符号表示外，还可表示为如下形式：内容资源被划分为多个被联系起来的节点，这些节点可以是D_DIK、P_DIK、I_DIK，这些节点之间用虚线相连表示对这些资源进行语义上的关联融合后可产生对应的知识规则，也可理解为将一条知识规则拆分为D_DIK、P_DIK、I_DIK。这种表达方式可使知识规则的组成更加清晰，为具体分析知识规则的组成元素提供积极帮助，为结合使用已有的其他资源推理出更加具体、丰富的知识规则提供便利。

Knowledge Model同层级不同K_DIK之间存在的逻辑关系，可参考意图资源、信息资源逻辑关系表示方法进行表示。如图 12所示。

图 12 知识模型示意图

Fig. 12 Schematic diagram of the Knowledge Model

由于数据、信息、知识、意图模态的资源均可建模为图的形式，因此这些模型可称为数据图谱Data Graph、信息图谱Information Graph，知识图谱Knowledge和意图图谱Purpose Graph，统称为类型资源图谱Typed Graphs。

公式（3-33）

分析DIKP资源存在关系梳理完成的同模态体系图谱示意图如图 13所示。

图 13 同模态体系图谱示意图

Fig. 13 Schematic diagram of same-modal system graphs

3.2.3 跨模态图谱关联层构建

本文认为除了相同模态的资源存在关联外，不同模态的资源同样存在关联，例如信息资源就是将人类意图赋予数据资源后的状态。因此为了更好地将现实情形建模表示出来，有必要对不同模态资源发生关联的情形进行分析，将四种模态的模型联系起来，构成一个互通的整体。在本小节中首先对不同模态资源进行关联转换的关键计算+_DIK和-_DIK的符号含义进行定义，其次规定D_DIK、P_DIK和I_DIK的转换作为DIKP资源转换的范式，并以其相关转化过程为例进行资源模态转换具体过程的说明，最后根据不同模态资源的关联完成跨模态关联图谱的建模。

（1）符号定义与DIKP资源转换的范式说明

①+_DIK符号的定义

“+_DIK”被创造用来表示不同资源进行形式上的关联以及语义上的融合后，可形成新的资源。关联指类型化资源间存在关系Relation，例如类型资源体系中存在的包含、逻辑关系等基本关系Relation_Basic，或是比基本关系更为具体的其他关系Relation_Specific。只要资源间存在Relation即认为资源间存在关联Association。

公式（3-34）

不同资源间存在形式上的关联Association_Formal是指由原先不存在任何关系，现转变为存在关系的过程，新增了“+_DIK”关系，Association_Formal暂不考虑资源存在关系后的语义变化情况，只关注关系的存在状态变化。

Association_Formal表现在字面上，不同资源原处于离散状态，现将不同资源进行拼接以示关联行为发生，形成新的、用于记录该关联行为的数据资源；Association_Formal表现在资源图谱上，不同资源节点之间没有任何关联连线，现经“+_DIK”操作后，不同资源节点之间形成连线。

不同资源间发生语义上的融合Fusion_Semantic是指它们因产生“+_DIK”关系后，由各自的基本语义转变为融合后新语义，因此产生了新资源。

Fusion_Semantic在类型化资源图谱上表现为生成了一个新的节点，该新建节点与原先的资源关联连线通过带箭头的分支曲线相连，新建节点的所属模态根据划分标准进行具体划分，并表现在对应图谱中。

信息被认为是将人类特定意图赋予数据资源后的状态，是数据根据特定意图进行定向反应和表达后得到的具有背景语义的资源，可简单理解为D_DIK与P_DIK关联融合可构成新的I_DIK，即：

公式（3-35）

假定发生关联融合操作之前，D_DIK和P_DIK之间不存在任何关系，图谱上对应节点也不存在任何关系连线。

现运用+_DIK将D_DIK和P_DIK进行关联融合。

第一阶段，完成D_DIK和P_DIK形式上的关联。在字面上，将D_DIK和P_DIK进行拼接，得到NewDSplit(D_DIK, P_DIK)用于记录两者产生关联的行为；在对应的Data Graph和Purpose Graph中搜索到D_DIK和P_DIK资源节点，将两者用虚线相连，并在线上标注出符号+_DIK，表示D_DIK和P_DIK之间存在+_DIK关系。

第二阶段，完成语义上的融合。融合后D_DIK和P_DIK产生了新的语义，其内容包括但不限于以下两种：第一种是说明D_DIK的变化，例如功能变化、性质变化等；第二种说明D_DIK在P_DIK表示的特定方向上进行推理，得到符合P_DIK要求、与P_DIK密切相关的推理结果。

第三阶段，形成新资源。D_DIK和P_DIK进行融合产生新语义的同时也产生对应的新信息资源，用NewI_DIK表示。语义融合过程表现在图谱上：原资源关联融合产生新的信息资源，NewI_DIK表示为一个节点；原D_DIK和P_DIK节点关联的连线中产生一个带箭头的曲线分支与NewI_DIK相连，其中箭头指向新生成的NewI_DIK节点；最后NewI_DIK节点因被划分为信息资源而应归并表示在Information Graph中。

用实例说明：存在D_DIK=“面包棍”，P₁=“解饿”，P₂=“赶走敌人”，最初资源间不存在任何关系，现对已有资源进行关联融合。对D_DIK和不同P_DIK分别进行“+_DIK”操作，该操作可形成两个不同的新信息资源，分别是“面包棍是食物，肚子不饿”和“面包棍是武器，敌人被赶走”，产生的新信息能具体说明D_DIK的功能是“食物”或“武器”，以及通过对P_DIK表示的特定方向进行推理，得到符合P_DIK要求、与P_DIK密切相关的推理结果Result_Reasoning，分别为“肚子不饿”和“敌人被赶走”。

“+_DIK”操作过程示例图如图 14所示。

公式（3-36）

图 14 D_DIK +_DIK P_DIK=I_DIK示意图

Fig. 14 Schematic diagram of D_DIK +_DIK P_DIK=I_DIK

②-_DIK符号的定义

“-_DIK”被创造用来表示将复杂融合语义进行分离，并且解除不同资源之间原始关联关系的操作，是“+_DIK”操作的衍生反向操作，基本公式为：

公式（3-37）

规定TR_A是具有复杂的融合语义的资源，TR_B是语义较为简单且是构成TR_A的必要相关资源，TR_C是从TR_A资源的复杂融合语义中剔除TR_B资源蕴含语义后，由遗留下来的语义所构成的资源。

“-_DIK”操作主要分为语义上的融合分离与形式上的关联解除。

语义上的融合分离Separation_Semantic表示在语义层面上，从TR_A中去除有关TR_B的所有语义后，整体语义发生了变化并且产生了对应的新资源TR_C，原TR_A被分离为TR_B和新资源TR_C，且TR_C的语义与TR_B的语义存在差异。

Separation_Semantic表现在类型化资源图谱上，有两种可能情形：

A. 当各资源节点与资源间关联融合关系均被完整表示时，由TR_A所在节点出发，沿着箭头逆向查询，找到除已知TR_B外的另一个资源节点，该节点即为所需资源节点TR_C；

B. 当各资源节点与资源间关联融合关系未被完整表示时，则将语义分离后得到的新资源TR_C表示为节点，并根据类型化资源划分标准被表现在不同的资源图谱中。此时将TR_B和TR_C节点用虚线相连，并在线上标注出符号+_DIK，表示TR_B和TR_C进行关联融合后可得到TR_A，补足节点和关系连线，可通过查询方法顺利找到TR_C。

形式上的关联解除Association_Relieve包括以下表现形式：

A. 在字面上，直接将资源TR_A中与资源TR_B有关的内容全部删去，形成一个新的数据资源NewDDelete(TR_A,TR_B)，用于记录资源TR_A和TR_B进行“-_DIK”操作；

B. 在图谱上，将TR_A、TR_B、TR_C中的关联连线断开，表示进行“-_DIK”操作后原先存在的关联现在消失。

根据公式（3-35），对其进行衍生反向操作-_DIK，即可得到两个相关的公式：

公式（3-38）

公式（3-39）

对于公式（3-38），对I_DIK和P_DIK进行“-_DIK”操作，可删除包括P_DIK的相关人员、意图状态变化和推理结果等语义内容，遗留下的语义中存在D_DIK的相关内容，即NewD_DIK。举例说明：存在I_DIK=“面包棍是食物，肚子不饿”，P_DIK=“解饿”，最初两资源存在关联融合关系，现期望获得语义分离后的数据资源，有两种可能情形：

A. 当资源节点以及资源间关联融合关系连线均被完整表示时，可直接查询找到D_DIK，该D_DIK即为所求NewD_DIK，其后将关联连线断开表示语义分离，过程如图 15所示。

图 15 资源节点及关系连线均完整时I_DIK -_DIK P_DIK=D_DIK搜寻过程示意图

Fig. 15 I_DIK -_DIK P_DIK=D_DIK search process when resource nodes and relationship lines are complete

B. 当资源节点和关系连线未被完整表示时，对I_DIK和P_DIK进行“-_DIK”操作，得到语义分离后的数据资源NewD_DIK=“面包棍”。NewD_DIK说明P_DIK的主要施用对象，生成对应节点后将节点加入Data Graph，NewD_DIK和P_DIK在图谱中进行连接表示通过“+_DIK”操作可融合得到I_DIK，此时可通过查询方法找到D_DIK节点，最后再将图中已有的关联破坏，完成“-_DIK”操作，过程如图 16所示。

公式（3-40）

图 16 资源节点及关系连线不完整时I_DIK -_DIK P_DIK=D_DIK搜寻过程示意图

Fig. 16 I_DIK -_DIK P_DIK=D_DIK search process when resource nodes and relationship lines are uncomplete

对于公式（3-39），对I_DIK和D_DIK进行“-_DIK”操作，可删除意图的施用对象和D_DIK在满足P_DIK时产生的对应特定功能等，对比原始资源和现资源，可总结出新意图资源，即为NewP_DIK。举例说明：存在I_DIK=“面包棍是武器，敌人被赶走”，D_DIK=“面包棍”，最初两资源存在关联融合关系，现期望获得语义分离后的意图资源，有两种可能情形：

A. 当资源节点以及资源间关联融合关系连线均被完整表示时，可直接查询获得所求NewP_DIK，其后将关联连线断开表示语义分离。

B. 当类型化资源图中资源节点和关系连线未被完整表示时，对I_DIK和D_DIK进行“-_DIK”操作，得到语义分离后的NewP_DIK=“赶走敌人”。NewP_DIK可说明D_DIK在该NewP_DIK的作用下功能被限定，NewP_DIK可被加入到Purpose Graph中，D_DIK和NewP_DIK在图谱中进行连接表示通过“+_DIK”操作可融合得到I_DIK，此时可通过查询方法顺利找到P_DIK节点，最后再将图谱中已有的关联破坏，完成“-_DIK”操作，形式化表现如下：

公式（3-41）

（2）跨模态关联图谱建模

在不同模态资源进行关联转换的+_DIK和-_DIK计算，以及DIKP资源转换范式的基础上，Data Graph、Information Graph、Knowledge Graph、Purpose Graph之间产生关联的情形总共有六种，如图 17所示。

图 17 跨模态关联图谱示意图

Fig. 17 Schematic diagram of cross-modal association graphs

总结本章重要内容，如表2所示。

表 2 建模相关概念汇总表

Table 2 Summary table of modelling related concepts

主要内容	类型化资源
主要内容	D_DIK	I_DIK	K_DIK	P_DIK
形式	离散元素	关联元素	关联元素	离散元素
与人类意图的关系	无关	相关	相关	相关
主要存在关系	PCR	IR，LR	IR，LR	IR，LR
对应体系	Data System	Information System	Knowledge System	Purpose System
对应模型	Data Graph	Information Graph	Knowledge Graph	Purpose Graph
模型主要表达形式	Tree	Tree	Tree	Tree

3.2.4 特殊资源处理与动态更新层构建

在收集和使用类型化资源的过程中，会出现一些特殊的资源，如无用资源、冗余资源、不一致资源等，这些资源都会导致建模和后续使用效率的降低，占用更多的存储空间，造成更多不必要的代价花费。因此，需要分析这些情况并采取相应的措施，制定资源更新策略Resource Update Policy，构建可动态更新的类型化资源模型。

（1）无用资源的处理

无用资源uselessTR_DIK包括无用数据uselessD_DIK、无用信息uselessI_DIK和无用知识uselessK_DIK。

公式（3-42）

无用资源不能作为必要的中间资源为模型的构建提供积极支持，并且生成采集后也未获得后续活动继续使用。无用资源通常出现在采集时间距今已经有一段时间，近期内未被使用且将来也大概率不会被使用，并且没有其他资源与它相关联的资源中，或者是为了说明不同资源之间产生关联而形成的记录型数据资源。例如，3月前康养用户的饮食消费被记录为数据资源，这些数据资源在数据图谱中的出度为0，且使用频率为0，说明这些资源从未被使用过，三月间也没有任何活动需要这些资源。没有活动需要该资源。引入无用的数据、信息、资源需要额外的人力、时间和空间，增加了搜索等处理的复杂性。

因此，为避免浪费，进一步优化资源模型，我们需要管理无用的资源，制定资源更新策略，如定期删除未使用或使用次数很少的资源，释放存储空间；对于指示资源发生关联的记录型数据资源，在原资源完成关联融合操作，形成新资源并根据需要存储在相应的图谱中之后，将关联记录数据资源删除。无用资源的处理如图 18所示。

图 18 无用资源处理示意图

Fig. 18 Useless resource handling schematic

（2）冗余资源的处理

冗余资源redundantTR_DIK是指新采集到的资源与数据、信息、知识或意图图谱中存在的原有资源发生重复现象的资源。

公式（3-43）

冗余资源通常出现在以下几种情况下：①一些活动会重复和不必要地产生和收集相同的数据、信息、知识、意图资源；②对长期以来没有发生变化或很少发生变化的事物进行周期性观察，采集得到资源；③在对资源进行模态划分时，将同一资源划分为不同的模态并分别存储于模态对应的图谱中，导致不同图谱中存在相同的内容。

重复存储冗余资源往往会占用大量的网络带宽，从而影响资源搜索的使用效率等。为了防止冗余资源的产生，构建可重用数据、信息和知识的理想使用模型，最大限度地减少重复收集和创建资源的过程，最大限度地利用数据、信息和知识，需要采取一些措施。

对于场景①，可对不同活动所要采集的资源名录进行统计，对活动进行重新规划。当一项活动需要对某事物进行观察并采集资源时，首先询问其他活动是否收集了相应的资源，如果是，则放弃收集，重用现有资源，如果不是，则继续收集。

对于场景②，调整事物的观察周期，如果观察结果不变，则原始存储资源保持不变，资源利用的频率和时间与变化相对应；如果观察结果发生变化，在相应的图谱上添加新观察资源，并且进一步触发异常结果检测服务，如果检测结果显示异常结果，则发出警报，如果检测结果支撑则说明该事物发生正常变化。例如，周期性记录康养用户的心率，若心率属于正常范围则不触发报警，若心率不属于正常范围即触发报警系统。

对于场景③，可以遍历数据、信息、知识和意图图谱，以查看是否存在相同的记录，如果存在相同的记录，则选择一张图谱进行存储，删除其余图谱上的相同内容；如果不存在相同记录则正常存储。

冗余资源还包括一种特殊情形，即同一事物具有不同的表述记录。例如药品“氟哌酸”是“诺氟沙星”的别名，在这种情况下，分别存储两个数据会造成冗余，因此两个记录可以融合为一个单一的数据资源，并在图谱上作为一个节点显示。冗余资源处理如图 19所示。

图 19 冗余资源处理示意图

Fig. 19 Redundant resource handling schematic

（3）不一致资源的处理

不一致资源inconsistentTR_DIK是那些由于采集故障或错误等原因导致的存在矛盾、不相容的资源。

公式（3-44）

资源是通过人类对现实世界的观察而收集的，需要遵循规则和逻辑。但在实际应用过程中，一些资源违反了语义规则和逻辑常识。例如，当两位医生同时在医院系统上查看一个特定科室的住院病人数时，由于系统异常而得到两种不同的答案，两个数据资源是不一致的。在这种情况下，可以通过引入其他资源来辅助解决，辅助资源是指与不一致资源存在关联的其他数据、信息或知识资源，将辅助资源和不一致资源在特定意图的驱动下完成融合转化操作，可消除资源的不一致性。不一致资源的处理如图 20所示。

图 20 不一致资源处理示意图

Fig. 20 Inconsistent resource handling schematic

3.3 面向DIKW跨模态内容模型应用

3.3.1 建模背景介绍

在各种软硬件的支持下，康养医疗行业产生和收集了大量的数据，这些数据类型多样，存在处理困难的问题（高景宏等, 2021）。

在现实生活中，康养用户的身体检测资源是帮助医生进行疾病诊断和健康判断的重要依据，但是在对这些身体检测资源进行处理时常会出现资源重复收集、存储凌乱的问题，最终导致利用效率低下的不良结果。其中资源重复收集问题主要出现在不同医院或科室进行的医疗活动，对康养用户的时间、财力和精力造成了很大的浪费。身体检测资源存储凌乱是指资源被存储在不同的数据库中，而这些数据库可能受控于权限和隐私保护等操作而无法互相调用资源，且存储在同一个数据库中的不同资源被随机散乱存放，当医生提出资源请求时需要对数据库中的所有资源都进行遍历查询操作，否则无法返回医生需要的资源。这种原始的资源存储、传输和计算处理策略效率极其低下，属于一问一答模式，忽略了与特定资源存在重要关联性和利用价值的其他资源，导致对资源的处理并不充分、准确，也并不智能。例如医生希望判断康养用户的健康状况，提出需要提供康养用户的心率状况数据，医生在数据库中搜索一圈，但仅仅返回了医生具体提出的心率数据，虽然这个数据也能对判断康养用户的健康状况提供一定的价值，但若医生依靠这个数据不能得到肯定的诊断结果，需要获得康养用户的“血压”、“睡眠情况”等其他相关资源进行辅助诊断，只能重新遍历搜索数据库。这种一问一答利用资源的方式会耗费极大的时间和空间代价。

因此本文希望将康养用户的所有体检资源统一存储到康养用户自身的存储器上，并对资源进行DIKP模态划分和体系化建模，使原本分布杂乱、随机存储的数据、信息、知识资源变得有条理，减少资源重复采集和存储凌乱情况的出现，并且能在找到资源的同时，快速找到与其相关联的其他资源，提高资源的利用效率，促进数据、信息、知识资源融合，产生更加丰富、具有极高价值的新资源。

3.3.2 康养资源模型示例

用户体检资源属于康养资源，可从医疗数据库中的体检数据库中获取。由于不同用户拥有不同认知，因此不同用户之间采集获取的资源，以及相同资源之间的关系均可能存在差异，这同样导致根据资源和资源间关系而梳理构建出的用户个人DIKP图谱存在差异。因此，本文随机选取一位医生A和一位康养用户B，将他们的体检相关资源作为原始资源，并对其进行数据、信息、知识和意图图谱的构建与说明。

（1）数据图谱构建

数据资源的面向对象的父子包含关系如图21（a）所示，“心率检查”是“心脏检查”，“心脏检查”是“内科检查”，“内科检查”是“体检”，用形式化符号表示为：

公式（3-45）

父子包含关系存在传递性。例如“心率检查”是“心脏检查”，“心脏检查”是“内科检查”，那么可得“心率检查”是“内科检查”，可形式化表示为：

公式（3-46）

图 21 医生A和康养用户B关于体检的部分数据图谱

Fig. 21 Partial data graph for doctor A and healthcare user B on physical examination

（2）意图图谱构建

①意图资源的包含关系如图22（a）所示，例如生存包括保持身心健康，保持身心健康包括治愈疾病，其中“生存”、“保持身心健康”、“治愈疾病”是不同的意图，但它们具有相同性，并且“保持身心健康”大意图可以分解为较为具体的“治愈疾病”小意图，实现“保持身心健康”意图应完成“治愈疾病”意图，完成了“治愈疾病”意图才可上升完成高等级意图“保持身心健康”，用形式化符号表示为：

公式（3-47）

意图间包含关系存在传递性，例如“保持身心健康”是为了“生存”，“治愈疾病”是为了“保持身心健康”，那么可推得“治愈疾病”是为了“生存”。利用传递性可将意图进一步分解，与其他资源关联融合时可得到更多新资源。该例中意图资源包含关系的传递性可形式化表示为：

公式（3-48）

图 22 医生A和康养用户B关于体检的部分意图图谱

Fig. 22 Partial purpose graph for doctor A and healthcare user B on physical examination

②意图资源的逻辑关系如图22（b）所示。

A. 与关系“and”。例如“养成良好生活饮食习惯”、“及时治疗”等联合起来才能“保持身体健康”。

B. 或关系“or”。例如“找医院”和“找医生”，两者都能够单独达到“及时治疗”的目的，不需要进行联合。

C. 非关系“not”。例如“复习”和“作弊”都可完成“通过考试”，但它们是两种不同的行为，前者符合社会价值观，后者违背社会公序良俗，存在矛盾。

上例可分别用形式化符号表示为：

公式（3-49）

意图资源中的逻辑关系可由其他已有、确定的逻辑关系推理得到。例如存在P_Father=“及时治疗”，P_A=“做体检”，P_B=“找医院”，P_C=“找医生”，且P_A(Is_and(P_B))，P_B(Is_or(P_C))，得到P_A和P_C之间为与关系，用符号化表示为：

公式（3-50）

（3）信息图谱构建

①信息资源中存在的包含关系如图23（a）所示，例如对医生A来讲，存在信息资源I₁=“自己能量摄取正常，身心状况正常，经济状况稳定，因此生存状况良好”、I₂=“自己一日三餐，因此摄取能量状况正常”、I₃=“自己患有静脉曲张，心理测试结果正常，因此身心健康状况正常”。从语义角度理解分析，发现已存在意图资源间关系：“生存”包含“摄取能量”和“保持身心健康”，因此存在I₁包含I₂、I₁包含I₃，用形式化符号表示为：

公式（3-51）

信息间包含关系存在传递性。例如已知I₄=“自己正在治疗静脉曲张”，存在I₁包含I₃，I₃包含I₄，则可推得I₁包含I₄，可形式化表示为：

公式（3-52）

②信息资源中存在的逻辑关系如图23（a）所示。

A. 与关系“and”。例如要完全说明表达医生A的I₁，即生存状况良好，需要说明能量摄取状况的I₂和说明身心健康状态的I₃联合。

B. 或关系“or”。例如已知I₅=“在本院治疗静脉曲张，主治是李主任”，I₆=“在其他医院治疗静脉曲张，主治是人民医院张主任”，其中I₅和I₆均可推理得到I₄。

C. 非关系“not”。已知I₇=“本人复习专业知识”，I₈=“本人考试时作弊”，I₉=“本人成功通过考试”，其中I₇和I₈均可达到I₉，但两者存在矛盾。

以上实例可分别用形式化符号表示为：

公式（3-53）

图 23 医生A和康养用户B关于体检的部分信息图谱

Fig. 23 Partial information graph for doctor A and healthcare user B on physical examination

（4）知识图谱构建

①知识资源中存在的包含关系如图24（a）所示，例如存在K₁=“生物生存需要身心状况正常”、K₂=“人类生存需要身心状况正常”、K₃=“人类摄取能量是正常的”，从语义角度理解分析，发现存在数据资源间包含关系：“生物”包含“人类”，并且存在意图资源间包含关系：“生存”包含“摄取能量”和“保持身心健康”。因此存在K₁包含K₂、K₂包含K₃。知识资源中包含关系同样存在传递性，如果知识资源K₁包含K₂、K₂包含K₃，那么K₁一定包含K₃。

公式（3-54）

②知识资源中存在的逻辑关系如图24（b）所示。

A. 与关系“and”。例如要说明K_Father=“生物生存需要身心状况正常”，需要所有种类的生物生存时有关身心健康的子知识K_Son进行归纳推理，最终得到一般性结论K_Father。

B. 或关系“or”。例如已知K₄=“严重胃病及时治疗可恢复健康”，K₅=“参加跳绳锻炼可恢复健康”，K₆=“人类保持身体健康可恢复健康”，其中K₄结合意图体系“及时治疗是为了保持身体健康”，K₅结合意图体系“参加锻炼是为了保持身体健康”，则均可推理得到K₆。

C. 非关系“not”。例如K₇=“人类保持身体健康需要有良好的睡眠”，K₈₌“每天睡足8小时是最健康的睡眠周期”，K₉=“7小时是最佳睡眠时间”，其中K₈和K₉是大众关于最佳睡眠时间长短的不同看法，它们存在矛盾，但均可推理得到K₇。以上实例可分别用形式化符号表示为：

公式（3-55）

图 24 医生A和康养用户B关于体检的部分知识图谱

Fig. 24 Partial knowledge graph for doctor A and healthcare user B on physical examination

3.4 本章小结

本章主要介绍了DIKP资源的组织和建模。第一小节首先说明为更好地组织数据和促进自然语言的理解，选择采用DIKW理论作为资源建模的理论基础。在第二次小节中，详细说明了构建跨模态内容模型的设计方案，提出基于同模态数据、信息、知识、意图资源间存在的关系梳理和构建DIKP体系模型，并基于资源转换范式设计建造跨模态关联图谱。第三小节将康养背景下用户部分体检资源建模为数据、信息、知识、意图图谱，作为面向DIKW跨模态内容模型设计方案的实例。

4 面向DIKW跨模态内容融合转换处理技术

4.1 研究动机

人们通过多种渠道收集的资源往往是存在数据、信息、知识中两种及其以上模态的混合资源。对于这种多种模态资源混合的处理，现有的技术方案，如人工智能方法，大多基于对学习数据分布概率、信息完整性或知识系统逻辑一致性的假定。然而，在现实实践中，很难确保机器在学习数据的概率分布时，能够像大数据处理一样拥有“适当”数量的数据；在信息的完整性方面，除了要考虑客观呈现的信息外，还需要考虑个人的主观目的；在保证知识系统逻辑的一致性时，需要将经验、常识与知识等进行协调统一。在这种情况下，为了有效和高效地利用数据、信息、知识资源，就需要更多的假设，但这些假设导致了更高的收集、储存和处理相关资源的成本。因此，我们需要找到一个不需要复杂假设就能充分利用已有资源的方案。

本文第二章介绍了数据在意图的驱动下可生成信息，不仅如此，数据、信息、知识模态的资源在不同意图的驱动下均可融合产生蕴含新语义的资源，这些新资源的模态可被划分为数据、信息、知识模态中的一种或多种。因此，在混合资源处理方面，本文建议通过数据、信息、知识和意图之间的融合和转化，整合跨模态资源的力量和价值，以提高资源处理的效率和有效性，最终以更低的成本适应更广泛的人工智能应用场景。例如患者前往医院就诊时，向医生提供化验单、病历表等数据资源，向医生口述自身感受等信息资源，医生能够在疾病诊断意图的驱动下，利用患者提供的资源并结合自身已有的知识等资源，可关联融合、推理计算出满足特定意图且蕴含价值的新资源，这些新资源代表了医生对患者提供内容资源的理解或推理结果。

上一章介绍了数据、信息、知识、意图资源进行转换和建模的具体过程，为更好地说明资源融合转化方法，本章将继续总结说明其他模态的内容资源发生融合转换的情形，资源转换和建模的具体过程可参考数据、信息、意图资源转换情形，此后不再赘述。

4.2 内容融合转换处理技术

4.2.1 意图融合转换

意图资源代表了人类与特定事物紧密相关的一些显性或隐性的目标，它并非是静止不变的，而是可以在现实中结合相关数据、信息、知识资源来进行动态调整的。这些相关数据、信息、知识资源可为意图发生转换提供支撑，使得转换后的意图更符合人类的真实需要。意图融合转换计算方式T&C_P-P包含三种情形：

（1）添加数据资源进行意图转换

公式（4-1）

用P₁表示已有的单个或多个意图资源，D_DIK表示相关的数据资源，可为意图转换提供支撑。举例：已知康养用户原有的意图为“获知诊断结果”，存在数据体系：“诊断结果”包括“病症名”，此时康养用户的意图可进一步细化转换为“获知病症名”。

公式（4-2）

（2）添加信息资源进行意图转换

公式（4-3）

用P₁表示已有的意图资源，I_DIK表示相关的信息资源。举例：已知康养用户原有的意图为“获知诊断结果”，并且存在信息资源“治疗室暂停服务”，康养用户的意图可进一步细化转换为“获知治疗时间”。服务状态

公式（4-4）

（3）添加知识资源进行意图转换

公式（4-5）

用P₁表示已有的意图资源，K_DIK表示相关的知识资源。举例：已知康养用户原有的意图为“获知诊断结果”，并且存在知识资源“不同疾病对应不同的治疗方式”，康养用户的意图可进一步细化为“获知治疗方式”。

公式（4-6）

4.2.2 同模态融合转换

同模态融合转换是指转换操作前的原始内容资源和经转换操作后得到的新资源在模态划分上归属于同一种模态，总共有三种同模态转换情形，如下所示。

（1）数据模态资源融合转换为数据模态资源

公式（4-7）

T&C_D-D表示从数据模态转换为数据模态的资源模态转换计算方式。D_DIK转换为D_DIK的情形可在相同实体内或跨不同实体间发生，且参与转换计算的原始数据资源的个数可以是一个或多个。当数据资源D_DIK不结合人类的特定意图，其自身含义是某个实体的具体属性内容时，用E表示实体，用E_A(Is(a))表示实体A具有属性内容a，以上转换计算情形如下所示：

公式（4-8）

对应实例可如，已知一个人的出生日期可计算得到其具体年龄，已知一个人在一周内每日的睡眠时长可得到该周内平均睡眠时长，已知某校全体同学的睡眠时长可得到该校学生平均睡眠时长。

公式（4-9）

对已有数据资源进行T&C_D-D转换计算从而得到新数据资源的具体方式有三种，可简述为联系具体上下文后利用相关数据、信息、知识进行补充添加，并在特定人类意图的驱动下对资源进行融合转化，最后根据基础意图“得到数据模态的资源”对新资源进行处理，得到数据模态新资源。具体实例表现如下：

①添加数据资源进行T&C_D-D转换

公式（4-10）

用D₁表示已有的单个或多个数据资源，D₂表示为完成人类特定意图而从具体上下文中找到的关联数据资源，可为资源转化提供支撑，P_DIK表示人类特定意图，规定了资源转换的具体方向，D₃表示经融合转换后得到的新数据资源。举例：已知一个人的出生日期为1997年3月12日，在意图“得到此人年龄”的驱动下，结合上下文中出现的当前日期为2022年2月1日，可由资源转换范式公式（3-5）得到信息“此人的年龄为24岁”，其后对特定意图运用-_DIK操作获得新数据资源。

公式（4-11）

②添加信息资源进行T&C_D-D转换

公式（4-12）

用D₁表示已有的单个或多个数据资源，I₁表示可对D₁进行补充的关联信息资源，D₂表示融合转换得到的新数据资源。举例：已知一个人平均睡眠时长为7小时，特定意图为“判断睡眠时长是否正常”，从上下文获得关联信息I₁=“人正常睡眠时长为7至8小时”。已有数据和信息在特定意图驱动下进行关联融合操作，推理得到新信息I₂=“此人睡眠时长是正常的”，后进行-_DIK操作获得新数据资源，如公式（4-13）所示。

公式（4-13）

③添加知识资源进行T&C_D-D转换

公式（4-14）

用D₁表示已有的数据资源，K₁表示在人类意图驱动下从上下文找到的可对D₁进行补充的相关联知识资源，D₂表示融合转换得到的新数据资源。举例：已知A是一名运动员，特定意图为“判断身体是否健康”，获得关联知识“运动员的身体处于健康状态”，融合推理得到信息I₁=“A身体健康”，最后进行-_DIK操作获得新数据资源。

公式（4-15）

（2）信息模态资源融合转换为信息模态资源

公式（4-16）

T&C_I-I表示从信息模态转换为信息模态的资源模态转换计算方式。信息模态的资源可互相转换，也可结合D_DIK、I_DIK、K_DIK融合转换生成新的信息资源。信息资源时结合特定意图可控制推理转化方向。信息资源互相转换的实例如下：存在信息资源I₁=“A的职业是医生”，当存在意图P₁=“说明学习医学知识的时间”时，I₁可转化为I₂=“A学习了八年的医学知识”；当存在意图P₂=“说明职业”时，I₂可转化为I₁。

公式（4-17）

对已有信息资源进行T&C_I-I转换计算从而得到新信息资源的具体方式是：联系上下文后得到相关数据、信息、知识，并将其作为转换所需的必要补充资源，经特定意图驱动关联融合操作得到满足人类特定意图的信息模态新资源。具体实例表现如下：

①添加数据资源进行T&C_I-I转换

公式（4-18）

用I₁表示已有的单个或多个信息资源，D₁表示转换所需的存在关联性的补充数据资源，P_D_IK表示人类特定意图，指引利用已有资源进行推理的方向，I₂表示融合转换得到的新信息资源。举例：已知I₁=“A因失眠前往医院治疗”，在意图“获取就医医院名称”的驱动下，结合数据D₁=“地理位置：学校”，经资源转换推理得到信息I₂=“A前往校医院就医”。

公式（4-19）

②添加信息资源进行T&C_I-I转换

公式（4-20）

用I₁表示已有的单个或多个信息资源，I₂表示相关补充信息资源，P_DIK表示人类特定意图，I₃表示融合转换得到的新信息资源。举例：已知I₁=“A因失眠前往医院治疗”，在意图“获取就医科室名称”的驱动下，结合信息I₂=“神经内科治疗失眠”，经资源转换推理得到信息I₃=“A前往神经内科治疗”。

公式（4-21）

③添加知识资源进行T&C_I-I转换

公式（4-22）

用I₁表示已有的单个或多个信息资源，K₁表示对信息转换起补充作用的相关知识资源，P_DIK是人类的特定意图，I₂表示融合转换得到的新信息资源。举例：已知I₁=“A因失眠前往医院治疗”，在意图“获取患病原因”的驱动下，结合知识K₁=“饮用咖啡因饮品可引起失眠”，经资源转换推理得到信息I₂=“A失眠可能是引用咖啡因饮品引起的”。

公式（4-23）

（3）知识模态资源融合转换为知识模态资源

公式（4-24）

T&C_K-K表示从知识模态转换为知识模态的资源模态转换计算方式。知识模态的资源可通过结合关联的D_DIK、I_DIK、K_DIK进行逻辑推理或挖掘隐含知识，从而得到转换生成的新知识资源，其中结合特定意图可控制逻辑推理的方向。

知识资源互相转换的实例如：已知K₁=“人类需要食物来补充能量”，在意图P₁=“获取具体食物”的驱动下，K₁转化为K₂=“人类需要米饭、蔬菜等来补充能量”；同理，在意图P₂=“获取什么”的驱动下，K₂转化为K₁：

公式（4-25）

对已有知识资源进行T&C_K-K转换计算从而得到新知识资源的具体方式是：联系上下文后得到相关数据、信息、知识，将其作为逻辑推理或挖掘隐含资源所需的背景或必要补充资源，保证逻辑推理所需的前提或假设存在，并在特定人类意图的驱动下对原始信息资源和补充资源做融合转化操作，得到满足人类特定意图的知识模态新资源作为推理结果。

具体实例表现如下：

①添加数据资源进行T&C_K-K转换

公式（4-26）

用K₁表示已有的单个或多个知识资源，D₁表示转换所需的补充数据资源，P_DIK表示人类特定意图，K₂表示融合转换得到的新知识资源。举例：已知K₁=“失眠患者不宜饮用咖啡因饮品”，在意图“不可摄取的食物”的驱动下，结合数据D₁=“咖啡是咖啡因饮品”，经资源转换推理得到知识K₂=“失眠患者不宜喝咖啡”。

公式（4-27）

②添加信息资源进行T&C_K-K转换

公式（4-28）

用K₁表示已有的知识资源，I₁表示相关补充信息资源，P_DIK表示人类特定意图，K₂表示融合转换得到的新信息资源。举例：已知K₁=“人失眠可能由不当饮食导致”，在意图“不可摄取的具体食物”的驱动下，结合信息I₁=“A饮用咖啡后失眠”，经资源转换推理得到知识K₂=“失眠的人不要饮用咖啡”。

公式（4-29）

③添加知识资源进行T&C_K-K转换

公式（4-30）

用K₁表示已有的知识资源，K₂表示对知识推理转换起补充作用的相关知识资源，P_DIK是人类的特定意图，K₃表示融合转换得到的新知识资源。举例：已知K₁=“人饮用咖啡后失眠”，在意图“获取患病原因”的驱动下，结合K₂=“咖啡中存在咖啡因”，经资源转换推理得到知识K₃=“咖啡因是人们失眠的原因”。

公式（4-31）

4.2.3 跨模态融合转换

跨模态融合转换是指转换操作前的原始内容资源和经转换操作后得到的新资源在模态划分上归属于不同模态。总共有六种跨模态转换情形，每种情形下原始类型资源均可与特定意图相关联的数据、信息、知识结合转化，得到满足特定意图的目标模态资源。

（1）数据模态资源融合转换为信息模态资源

公式（4-32）

T&C_D-I表示从数据模态转换为信息模态的资源模态转换计算方式。D_DIK转换为I_DIK主要是通过如下两种方式：一是根据人类的特定意图对D_DIK执行+_DIK操作得到，具体方式如3.2.3节所示；二是在意图驱动下，D_DIK与其他相关数据、信息、知识连接进而在真实或想象的场景中承担角色，最终获得满足意图的I_DIK，该种方式与同模态转换T&C_D-D、T&C_I-I、T&C_K-K中添加关联数据、信息、知识结合转化类似，因此不再细分叙述。

根据人类的特定意图，可以通过映射概念和聚类等方式对D_DIK进行重构和分类。例如：已知存在数据D₁=“A是一个人”，D₂=“病理学是一门课程”，在意图“获取职业”的驱动下，结合相关信息I₁=“A教授病理学”，知识K₁=“教授课程的人是教师”，经资源转换推理得到信息I₂=“A的职业是病理学教师”。

公式（4-33）

（2）数据模态资源融合转换为知识模态资源

公式（4-34）

T&C_D-K表示从数据模态转换为知识模态的资源模态转换计算方式。D_DIK继承了类型级知识库的语义关系，并可被其他操作有效地整合重用。在从D_DIK到K_DIK的转换过程中，将其他数据、信息、知识作为解释D_DIK的来源以及语义约束，并与原始D_DIK结合以消除D_DIK的冗余和不一致，确定最可靠的D_DIK来形成K_DIK。这意味着利用演绎法或归纳法存在的适用性，在有限的观察量的基础上进行抽象，会得到具有完整性或概率的语义，可概括和总结为一条条知识规则。例如：在数据体系Data System中，“动物”包含“人类”、“狗”、“猫”等，在意图“获取生存需求”的驱动下，结合与意图存在关联的信息I₁=“狗生存需要身体健康”，不同数据结合相同意图得到新信息I₂=“人类生存需要身体健康”，I₃=“猫类生存需要身体健康”，利用归纳法归纳总结得到知识K₁=“动物生存需要身体健康”。

公式（4-35）

（3）信息模态资源融合转换为数据模态资源

公式（4-36）

T&C_I-D表示从信息模态转换为数据模态的资源模态转换计算方式。I_DIK转换为D_DIK主要是通过如下两种方式：一是根据信息资源是数据资源绑定人类意图得到这一基本范式，将I_DIK执行-_DIK操作解除意图绑定得到D_DIK；二是结合数据、信息、知识在意图驱动下进行特定方向的推理转换。例如已知信息I₁=“A学习了2年医学知识”，在意图“获取职业”的驱动下，结合相关知识K₁=“学习知识的人是学生”，推理得到信息“A的职业是学生”，与特定意图解绑得到数据资源D₁。

公式（4-37）

（4）信息模态资源融合转换为知识模态资源

公式（4-38）

T&C_I-K表示从信息模态转换为知识模态的资源模态转换计算方式。通过对说明交互和行为记录的I_DIK进行特定意图下的分类和抽象，并结合相关的数据、信息、知识，可将I_DIK转换为另一个K_DIK。例如，高频率存在A在多种食品中选择蔬菜作为午饭的记录，在意图“获取喜欢的食物”的驱动下，结合知识“一个人高频率选择的食物是他喜欢的食物”，可推理出A喜欢吃蔬菜。

公式（4-39）

（5）知识模态资源融合转换为数据模态资源

公式（4-40）

T&C_K-D表示从知识模态转换为数据模态的资源模态转换计算方式。K_DIK转换为D_DIK主要可根据已有的知识资源对具体情况进行推理预测，其后与意图解绑后得到D_DIK。例如根据知识K₁=“冬春两季是流感高发季节”，在特定意图“预测明年2月情况”的驱动下，结合知识K₂=“2至4月是春季”，推理得到“明年2月是流感高发时节”。

公式（4-41）

（6）知识模态资源融合转换为信息模态资源

公式（4-42）

T&C_K-I表示从知识模态转换为信息模态的资源模态转换计算方式。K_DIK可以利于逻辑推理或概率统计来确定未知资源，T&C_K-I的变换可以通过将人类相关目的的元素映射到特定的K_DIK上，应用K_DIK的具体内容并在人类意图驱动下结合其他的相关数据、信息、知识，最终得到I_DIK。K_DIK结合的数据、信息、知识不同，可能会得到完全相反的结果。例如，A需要选择蔬菜、牛肉中的一种作为今日的午餐，已知知识K₁=“A喜欢吃牛肉”，在意图“选择午餐”的驱动下，结合关联知识K₂=“人们偏向选择自己喜欢的食物”，可推理得到信息I₁=“A选择牛肉作为午餐”，但若结合关联信息I₂=“医生建议A多吃蔬菜”，可推理得到I₃=“A选择蔬菜作为午餐”。此时由K_DIK转换得到的两个I_DIK是不一致的。

公式（4-43）

4.3 跨模态内容融合转换处理技术应用

4.3.1 医患冲突背景介绍

在当今社会中，如何促进人与人之间更好地沟通和理解，仍然是人们关注和讨论的重点话题，特别是围绕医生与患者之间矛盾和纠纷现象仍然普遍存在，以至于理解偏差问题已经成为人们和谐相处的障碍，会影响个人与社会的关系，甚至影响到人们思想观念的形成。

《2021中国医师调查报告》说明医患关系是当下最牵动人心，也是最令人头疼的问题之一（王天夫等, 2021）。从发生在医院的日常争吵到肢体性冲突甚至暴力事件，这些事件发生的频率越来越高。据不完全统计，仅在2021年，就有近10人因医患冲突而死亡或受伤。2022年1月13日晚，就发生了一起影响极其恶劣的伤医事件，武汉儿童医院专科主任彭罕鸣被患儿家属砍至重伤，只因患儿家属认为其子所患肿瘤是拍CT导致的。这类事件的发生，不仅给人们带来心理上的冲击，也促使我们进一步探究医患之间产生矛盾和纠纷事件的原因，以寻求缓解日益紧张的医患关系的方法。

经过分析和探索，发现医患之间产生矛盾和纠纷事件的原因有很多，大致上可以分为主观和客观两部分。主观上讲，（1）医患之间缺乏信任；（2）医患之间缺乏充分的沟通，告知义务落实不到位；（3）患者的期望值高，对疾病发展、病情变化、诊疗措施缺乏理解。客观上讲，主要是由于医疗资源匮乏、制度不完善等因素导致在医疗质量、医疗服务、医疗收费三大环节上存在不足。但归根结底，医患之间产生矛盾纠纷的核心因素是医患之间的沟通不到位，产生了理解偏差问题，医生没有理解患者的表述，而患者没有听懂医生的医嘱，最终导致了医患冲突。

本文从将个人资源映射为DIKP资源并构建对应DIKP图谱的角度上分析探讨交流过程中出现理解偏差问题的原因，并针对这些问题提出了利用数据、信息和知识等跨模态资源进行融合转化的解决方案，整合跨模态资源的力量和价值，促进双方更好的沟通和理解。

4.3.2 DIKP理论下理解偏差问题具体表现

人与人之间的交流与理解，可以看作是在自身数据、信息、知识资源的支撑下，结合意图对交流内容资源进行比较和转换的过程。病人关注着自身的个人感受，当感受出现异常时，他们选择前往医院或诊所就诊，向医生抱怨疾痛。他们用自己的语言描述这种不好的感觉，而医生通过倾听并结合自身的数据、信息、知识来重组病人的语言，在意图驱动下挖掘出隐藏在病人话语表面之下的深层根源，并将其与医学话语进行对比，最终判断出病情。这是一种初步的互动，在这个过程中，医患之间的交流和理解决定互动的效果。

由于地理环境、教育等方面的差异，不同的人对同一事物可以有不同的观察结果。此时通过将个人资源映射到DIKP资源，并构建相应DIKP图谱，可以通过比较DIKP图谱来发现沟通者之间的认知差异，促进沟通者之间的理解。

通过分析各种医患交流的实例，本文认为导致冲突的原因主要分为两种，分别是意图冲突（Purpose Conflict，P_Conflict）和内容冲突（Content Conflict，P_Conflict）。具体分析P_Conflict和C_Conflict可能导致沟通者之间产生理解偏差的几种情况，并将其与沟通者DIKP图谱上的差异联系起来。

公式（4-44）

（1）交流双方意图冲突导致理解偏差

意图冲突P_Conflict主要是指在交流时双方的具体意图不一致而产生的冲突。P_Conflict会导致无法理解对方的言语和操作，或对方的言语和操作无法满足己方意图。P_Conflict表现在DIKP图谱上就是双方的意图图谱节点和节点结构存在差异，共有四种情况，如公式（4-45）所示。图 25是意图冲突示意图。

公式（4-45）

①具体意图矛盾，P_Conflict1

当交流双方存在相同的大意图，但其下的具体小意图存在矛盾的情形，用P_Conflict1表示。

例如案例一：一病人因为经济状况不佳希望医生开较为便宜的国产药，而医生在不知情的情况下给他开了效果更好，但价格较为昂贵的外国药，导致冲突的发生。此例中病人和医生的大意图均为“开药”，但其下的具体小意图“开便宜，但疗效慢的国产药”和“开昂贵，但疗效快的进口药”存在矛盾，表现在DIKP图谱上就是双方的小意图呈逻辑非not关系。P_Conflict1示意图如图25（a）所示。

公式（4-46）

②多个意图间的逻辑关系不同，P_Conflict2

当交流双方存在相同的多个意图，但这些意图间的结构不同，即具体逻辑关系不同，用P_Conflict2表示。

例如案例二：一病人前往医院治疗感冒，他认为同时采用“吃药”和“静脉输液”来治疗疾病的效果更好，而医生认为两者选其一即可，没必要一块进行。此例中医患两者拥有相同的意图，但对这些意图的逻辑关系有着不同的看法，病人认为是逻辑与and关系，医生认为是逻辑或or关系。表现在DIKP图谱上就是双方意图之间的结构不同，如图25（b）所示。

公式（4-47）

③意图粗细粒度不一致，P_Conflict3

意图粗细粒度不一致是指交流双方拥有相同的意图，但其中一方将大意图细化为更具体的小意图，此时意图的粒度是不同的，用P_Conflict3表示。

例如案例三：医生和病人同样存在“说明相关情况”的意图，其中医生根据以往的经验将大意图“说明相关情况”细化为“说明年龄等基础信息”、“说明疼痛部位”、“说明症状持续时间”、“说明既往病史”等子意图，但病人不存在具体的子意图，在交流时病人在大意图的驱动下对医生洋洋洒洒说了一堆他认为与治疗诊断相关的资源，但这些资源并不是医生所期望的，这些资源反而为医生的诊断带来了不便。表现在DIKP图谱上就是一方存在细粒度意图节点，而另一方不存在，如图25（c）所示。

公式（4-48）

④意图缺乏P_Conflict4

意图缺乏是指当交流双方存在相同意图的前提下，其中一方拥有新的意图，而另一方没有，用P_Conflict4表示。

例如案例四：医生和病人同样存在“治病”的意图，病人新增了意图“得到医生对患者某些症状的重视”，若医生没有对应的意图，可能会忽略病人的症状，病人会因此认为自己的感受没有被重视，在医学权威面前，他或她的疾病表达是随意的，这就会使病人对这种权威、对医生的诊断产生质疑。表现在DIKP图谱上就是一方存在意图节点，而另一方不存在意图节点，如图25（d）所示。

公式（4-49）

图 25 交流双方意图冲突示例

Fig. 25 Example of exchange purpose conflict between both parties

（2）交流双方内容冲突导致理解偏差

内容冲突C_Conflict主要是指在交流时无法理解对方的语义内容，主要存在两种情况，如公式（4-50）所示。如图 26是内容冲突示意图。

公式（4-50）

①一方缺乏对应资源导致理解偏差

这种情况主要是指对比沟通者两方的资源后，发现一方存在数据、信息、知识资源，而另一方不存在对应资源，用C_Conflict1表示。表现在DIKP图谱上就是一方存在对应的数据、信息、知识资源节点，而另一方的DIKP图谱上不存在这些节点。

例如案例五，在医患沟通中，医生拥有很多专业的医学知识，而病人未经过医学教育，医生用专业话语与病人交谈，给病人说“你的心电图显示你存在窦性心律不齐的现象”，病人不知道专业术语“窦性心律不齐”的含义，这使得他们无法理解医生在说什么，只以为自己患了非常严重的疾病，感到非常害怕。或者当患者描述自己的病情时，认为一些情况无足轻重，便没有向医生说明，结果导致误诊和延误医治，对应图26（a）。

②资源内容受主观影响导致理解偏差

这种情况主要是指当交流内容涉及沟通者的个人感受时，交流内容存在模糊性，是不精确，甚至是不正确的，用C_Conflict2表示。在交流过程中，交流内容首先受到发送者的主观看法影响，发送者可能会夸大或隐瞒事实，其次由于人的认知不同，接收者对交流内容的理解会存在差异。表现在DIKP图谱上就是双方均存在对应的数据、信息、知识资源节点，但这些资源的具体含义却由于其所属者的认知不同而存在语义或使用上的差异，表现为与这些资源节点相关联的其他资源节点是不同的。

例如案例六，不同的人对同一种疾病的感受是不同的。早在两个世纪以前，就有人提出不同皮肤的人有着不一样的疼痛感受阈值，例如白人要比非洲人对疼痛更敏感，因而能更轻易地感受到疼痛。因此，相对于同一种胃病，有的人感受十分强烈，稍有不适就要到医院做胃镜检查；而有的人即使胃部出现很严重的病症也可以忍耐，等到实在无法忍耐而前往就医时，疾病已经发展得十分严重。所以针对这种交流内容，需要特别注意以防出现理解偏差导致危险后果，对应图26（b）。

图 26 交流双方内容冲突示例

Fig. 26 Example of the exchange of content conflicts between both parties

4.3.3 基于DIKP理论减少理解偏差应用

（1） DIKP理论下用户交流沟通总体方案设计

DIKP理论下用户交流沟通过程流程图如图27所示，现对相关内容进行解释说明。

①相关方介绍

A. 发送方Sender

发送方是交流沟通动作的发起人，其自身的DIKP资源和图谱记做Sender DIKP Resources/Graphs（SR/SG）。发送方要发送的目标内容资源（Target DIKP Resources，TR_i）存储在其自身的图谱上，可通过图谱遍历法得到与TR_i相关的上下文资源。

B. 接收方Receiver

接收方是交流沟通动作的承接人，其自身的DIKP资源和图谱记做Receiver DIKP Resources/Graphs（RR/RG）。由于发送方和接收方的认知存在差异，对应的DIKP图谱也不完全相同，导致接收方可能无法正确理解TR_i，因此需要对TR_i进行处理，使得处理后的资源能够被接收方理解，减少理解偏差。

图 27 DIKP理论下用户交流沟通过程流程图

Fig. 27 Flow chart of user communication process under DIKP theory

C. 处理系统System

处理系统是控制整个交流沟通动作的终端，其将Sender和Receiver的DIKP图谱进行比较和融合转换等操作，最终使Receiver能够更好地理解Sender发送的内容，减少理解误差。

第三阶段，采用减少理解偏差方案促进交流理解。System针对两方差异资源的冲突类型，设计基于意图驱动和资源转换法减少理解偏差的方案，Receiver在自身意图的驱动下，结合自身DIKP图谱或发送方DIKP图谱中与目标资源TR_i相关的上下文DIKP资源，完成融合转换操作，得到蕴含价值的新资源，促进交流。新资源可认为是Receiver在自身意图驱动下对已有资源的理解或推理结果。

③上下文DIKP资源定义

与目标资源TR_i相关的上下文DIKP资源（Context_DIKP）包括：①目标资源TR_i所在的图谱中，以TR_i所在节点为中心，特定上下深度和广度的同模态资源（Resource_precision）；②与目标资源TR_i存在具体关联关系的同模态或跨模态资源（Resource_association）；③发生在特定时间或时间段内的资源，例如在目标资源TR_i发生的同一时间内采集到的其他资源（Resource_time）。如图28是上下文DIKP资源的示意图，用红色节点表示TR_i，蓝色节点表示Resource_precision，黄色节点表示Resource_association，绿色节点表示Resource_time。

公式（4-51）

图 28 TR_i相关的上下文DIKP资源示意图

Fig. 28 Schematic diagram of TR_i-related contextual DIKP resources

（2）意图协调与重组方案设计

经实施交流方案第二阶段后，确定交流两方资源差异属于意图冲突的情形，可通过意图协调和重组方案统一交流双方的意图，减少因意图冲突导致的交流不畅现象的出现。

意图协调和重组方案主要由四种操作组成，分别是意图细化、修改、补充、结构改变操作，具体操作方式如下：

①意图细化操作P_refine()，指对大意图进行细粒度分化，将大意图细化分成多个较为具体的小意图的过程。主要针对因意图粗细粒度不一致导致的理解偏差情形，即P_Conflict3，意图细化操作可辅助完成相关资源选择和梳理。意图细化操作的具体实例可参考4.2.1小节。

②意图修改操作P_modify()，指对意图本身进行直接修改的过程。针对交流双方同一个大意图下的小意图节点在语义上存在矛盾的情形，即P_Conflict1。P_modify()是为保证双方意图统一，其中一方的意图保持不变，而另一方的意图进行修改，本质上是两方在交流中确定唯一意图。针对随着事件变化或时间迁移，某人意图产生变化的情况，也可经意图修改操作来改变意图。意图修改操作同样可添加相关数据、信息、知识资源经融合转化得到。

例如针对案例一存在的意图矛盾情形，病人拥有意图体系：“开药”包含“开便宜，但疗效慢的国产药”，医生拥有意图体系：“开药”包含“开昂贵，但疗效快的进口药”，两方的意图存在矛盾。此时结合信息资源“病人的经济状况不佳”，医生的小意图发生改变，最终选择原病人意图作为新意图。

公式（4-52）

③意图补充操作P_supply()，指在原有意图不变的基础上，新增添其他方面意图的过程，主要针对意图缺乏情况P_Conflict4。P_supply()存在两种意图补充方法，一种是直接将新增意图传递至意图缺乏方；另一种是意图缺乏方结合对方的数据、信息、知识资源经融合转化得到。

例如针对案例四中的意图缺乏情况，医生和病人都存在“治病”大意图，病人想要医生重视自身的某些症状，此时可将病人意图直接传送给医生，医生也可结合信息“病人多次提到自身某些症状”，新增对应意图。

公式（4-53）

④意图结构改变操作P_changeS()，指改变原有多个意图的结构的过程，主要针对交流双方多个意图间逻辑关系不同的情况P_Conflict2。P_changeS()可以通过添加相关数据、信息、知识资源融合转化来改变意图间的结构。

例如针对案例二中多个意图间逻辑关系不同的情况，病人认为大意图“治感冒”下的两个子意图“吃药治疗”和“静脉输液治疗”是逻辑与and关系，需要同时采用才能达到大意图的效果，而医生认为两者是逻辑或or关系，选其一即可完成大意图，此时病人可结合信息“朋友通过吃药治疗成功治愈了感冒”，确定意图间逻辑关系由and转化为or，意图间结构发生改变。

公式（4-54）

（3）内容重组方案设计

经实施交流方案第二阶段后，确定交流两方资源差异属于内容冲突的情形，可通过不同的内容重组算法减少双方交流误差。分别对算法进行介绍。

①C_Conflict1内容重组算法

主要用于解决由C_Conflict1导致的理解偏差问题。算法的具体步骤如下：

A. 部分理解操作Partial_uds()

a) 从发送者DIKP图谱上获取TR_i及其相关资源；

b) 在接收者DIKP图谱上搜索TR_i及其相关资源，比较发送者和接收者两方的资源，若接收者DIKP资源中对应存在相关资源，则将该资源发送给接收者，若接收者不对应存在相关资源，则放弃传送该资源；

c) Partial_uds()结束。

B. 深层理解操作deep_uds()

a) 分析并细化接收者的意图，说明接收者期望从哪些方面对交流内容进行理解；

b) 准备接收者提供其可理解的数据、信息、知识资源，结合接收者自身或来自发送者提供的其他上下文资源，在具体意图驱动下进行融合转换

操作，得到新资源；

c) deep_uds()结束。

以案例五作为实践背景，运用C_Conflict1内容重组算法。

实现过程举例：当医患双方均在相同意图“说明疾病”的驱动下，医生向患者传输信息“你的心电图显示你存在窦性心律不齐的现象”，患者的DIKP图谱中缺少“窦性心律不齐”的资源，无法理解交流内容。

因此，进行Partial_uds()操作：

System确定交流内容TR_i在医生DIKP图谱上的具体位置，以该节点为中心，在医生DIKP图谱上遍历与它存在关联的其他数据、信息、知识资源，在患者的DIKP图谱中查询TR_i及其相关资源，将TR_i及其相关资源与患者的DIKP资源比较，确定可发送给患者的资源，例如数据资源D₁=“今日心内科接诊患者中存在窦性心律不齐症状人数：5，患者总人数：10”，信息资源I₁=“患者应多休息，无需特殊治疗”，知识资源K₁=“窦性心律不齐不会对身体产生影响”。Partial_uds()结束。

公式（4-55）

进入deep_uds()操作：

System通过遍历患者意图图谱或关联其他相关资源完成大意图的细化操作，例如患者自身存在数据体系：“疾病情况”包含“严重程度”、“常见程度”、“治疗方式”等，因此将该数据体系与大意图结合，将“说明疾病”的意图细化分为P₁=“说明疾病的严重程度”、P₂=“说明疾病的常见程度”、P₃=“说明疾病的治疗方式”等小意图。

公式（4-56）

System结合患者或来自医生提供的资源，可在具体意图驱动下融合转化得到新资源。例如D₁在P₂的驱动下融合自身信息资源I₂=“患病人数多的疾病属于常见疾病”，得到新信息I₃=“窦性心律不齐很常见”，I₁在P₃的驱动下融合得到新信息I₄=“窦性心律不齐治疗方式是多休息，无特殊治疗”，K₁在P₁的驱动下融合自身知识资源K₂=“不会对身体产生影响的疾病不严重”，得到新信息I₅=“窦性心律不齐不严重”。deep_uds()完成。

公式（4-57）

②C_Conflict2内容重组算法

主要用于解决由C_Conflict2导致的理解偏差问题。算法的具体步骤如下：

A. 确定TR_i在发送者和接收者DIKP图谱的位置；

B. 以发送内容的节点为中心，分别在发送者和接收者DIKP图谱上搜索与它存在关联的其他数据、信息、知识资源，并将发送者和接收者的相关DIKP资源进行比较，发现存在差异的相关资源；

C. 为促进接收者理解发送者发送内容的真实含义，在接收者意图的驱动下，结合发送者的相关资源，对发送内容进行融合转化改写，得到新资源。

D. 结束。

以案例六作为具体实践的背景，运用C_Conflict1内容重组算法，体现算法的可行性。

实现过程如下：当医患双方均存在意图“说明疼痛程度”时，患者向医生传输信息“我感觉胃部中度疼痛”，由于不同人对疼痛的感受是存在差异的，会导致理解偏差问题出现。因此遵循算法的具体步骤进行应用。

System首先确定发送信息资源I₁在患者和医生DIKP图谱的位置，其次以该信息所在节点为中心，分别在两者的DIKP图谱上搜索与它存在关联的其他数据、信息、知识资源并比较，发现存在差异的相关资源。

例如患者存在相关信息资源I₂=“我患急性阑尾炎时感到中度疼痛”，说明对患者来讲，急性阑尾炎和此刻胃部疼痛感觉是相似的，均属于中度疼痛，而医生存在知识资源K₁=“急性阑尾炎属于五级疼痛等级中的四级”和K₂=“中度疼痛属于三级疼痛”，经比较发现患者和医生对“中度疼痛”的定义是存在差异的，医生不能直接按照自身认知来理解患者的疼痛表述。

因此，为医生更好地理解患者的表述，在医生意图P₁=“说明数字型疼痛程度”的驱动下，将I₁和I₂、K₁进行融合转化，得到新信息I₃=“患者此刻胃痛等级为四级”，此时发送内容依据医生的认知进行了改写，理解偏差得以修正。

公式（4-58）

4.4 本章小结

本章主要介绍了DIKP资源互相融合转换的资源处理技术，从意图资源转化出发到同模态资源和跨模态资源的融合转换，完整地描述了DIKP资源在其他数据、信息、知识资源的辅助下完成融合转换，最终生成有价值新资源的操作过程。并以康养背景下医患交流出现理解偏差的现实情况为背景，详细分析了出现理解偏差问题的原因，并基于DIKP理论设计了一种减少理解偏差的方案。

5 DIKP理论下康养资源搜索推荐应用

5.1 研究动机

在康养资源的传递交流过程中，不可或缺的是康养用户和医务人员对现有康养相关内容资源的检索需求，如何找到他们想要的康养内容是非常重要的。然而康养内容资源规模庞大，极易导致信息过载问题，并且康养内容资源存在不完整、不一致、不精确等性质，若用户期望获得准确的康养内容资源，所付出的时间等代价可能与用户的预期不符，并且搜索返回的资源可能无法满足用户的需求。

在将康养资源建模为DIKP资源图谱的基础上，本章主要探讨两个方面。第一个方面是在搜索能力有限，无法同时遍历四个图谱的情况下，如何遍历图谱才能使获取资源的效率更高。第二个方面是如何利用DIKP理论设计一种期望代价与实际执行代价匹配的搜索推荐策略，使得返回的资源能够满足用户更加广泛的搜索需求。

5.2 DIKP图谱遍历搜索排序算法

本节提供一种在搜索能力有限，不能同时遍历数据、信息、知识、意图四个图谱情况下的DIKP图谱遍历搜索排序算法，以达到花费较少的代价在不同模态图谱中快速查询到特定目标资源的目的。在正式搜索之前，首先计算搜索目标内容资源STR_i在DIKP各层图谱上的搜索代价SMCost和搜索效率SMEfficiency，然后根据搜索效率大小决定遍历图谱的次序，使用户花费相对较小的代价而能更加快速地获取目标资源。

其中存在四种搜索STR_i的方式，用A-B表示目标资源STR_i的原模态为A，现要在B模态图谱中进行搜索。A与B相同，表示同模态图谱搜索，包括D-D，P-P，I-I，K-K；A与B不同，表示跨模态图谱查询，其中跨模态图谱查询共有三种类型：

（1）跨同阶：D-P，P-D，用0-DiffGraph_DIKP表示；

（2）跨一阶：D-I，I-D，P-I，I-P，I-K，K-I，用1-DiffGraph_DIKP表示；

（3）跨二阶：D-K，K-D，P-K，K-P，用2-DiffGraph_DIKP表示。

举例：若STR_i的原模态为数据模态，则对应的四种搜索方式分别为D-D，D-P，D-I，D-K。特殊的，存在发生于I-D、I-P、K-I、K-D、K-P的不完整查询，不完整查询是指图谱中并无直接说明STR_i的内容，因此无法在图谱中直接查询到完整的STR_i，只能查询到STR_i的部分内容，例如不完整I-D查询是在数据图谱中查询到STR_i拆分成数据形式的部分内容，仍有其他部分内容分散存储，只有将STR_i拆分形式的内容都查到才可说明“已查到STR_i”。

每种搜索方式所花费的代价用SMCost表示，SMCost主要由搜索难度SD、耗费时间CT和其他因素Other所造成的代价组成（SDCost、CTCost、OtherCost），计算公式如（5-1）所示：

公式（5-1）

公式（5-1）中scale表示搜索方式中对应图谱的规模，即节点数和边的总数；Probability代表不同搜索方式中对应图谱上存在目标资源的概率，分别用α、β、γ、θ表示，且；Weight代表不同搜索方式的权重，分别用a、b、c、d表示，且a+b+c+d=1；OtherCost代表其他因素导致的搜索代价。表3是单位资源搜索难度代价表，表4是单位资源耗费时间代价表。

表 3 单位资源搜索难度代价表

Table 3 Unit resource search difficulty cost table

*STR*_i的模态	DIKP图谱
*STR*_i的模态	Data Graph	Information Graph	Knowledge Graph	Purpose Graph
D_DIK	SDCost_D_-_D	SDCost_D_-_I	SDCost_D_-_K	SDCost_D_-_P
I_DIK	SDCost_I_-_D	SDCost_I_-_I	SDCost_I_-_K	SDCost_I_-_P
K_DIK	SDCost_K_-_D	SDCost_K_-_I	SDCost_K_-_K	SDCost_K_-_P
P_DIK	SDCost_P_-_D	SDCost_P_-_I	SDCost_P_-_K	SDCost_P_-_P

表 4 单位资源耗费时间代价表

Table 4 Unit resource consumed time cost table

*STR*_i的模态	DIKP图谱
*STR*_i的模态	Data Graph	Information Graph	Knowledge Graph	Purpose Graph
D_DIK	CTCost_D_-_D	CTCost_D_-_I	CTCost_D_-_K	CTCost_D_-_P
I_DIK	CTCost_I_-_D	CTCost_I_-_I	CTCost_I_-_K	CTCost_I_-_P
K_DIK	CTCost_K_-_D	CTCost_K_-_I	CTCost_K_-_K	CTCost_K_-_P
P_DIK	CTCost_P_-_D	CTCost_P_-_I	CTCost_P_-_K	CTCost_P_-_P

用SMEfficiency表示四种搜索方式搜索目标资源的效率，计算公式如（5-2）所示：

公式（5-2）

其中Resource表示该搜索方式对应图谱中的资源量，即节点数。

算法1是DIKP图谱遍历搜索排序算法，对应的伪代码如下所示：

算法1 DIKP图谱遍历搜索排序算法
输入：搜索目标内容资源STR_i所属模态
输出：搜索方法排序结果
1.	输入STR_i的模态;
2.	表明STR_i的搜索方法是四种类型;
3.	Search_Method (STR_i)= {SameGraph_DIKP, 0-DiffGraph_DIKP, 1-DiffGraph_DIKP, 2-DiffGraph_DIKP};
4.	确定STR_i的搜索方法，将搜索方法Search_Method(STR_i)得到的结果放入搜索列表Search_MethodList中;
5.	for 在Search_MethodList中的每个搜索方法search_method_j do
6.	计算SMCost, SMEfficiency;
7.	end for
8.	根据搜索效率由大到小排序，确定排序结果的顺序作为搜索方法.
9.
10.	Search_Method(STR_i){
11.	result ← 0;
12.	if TSTR_i = D then
13.	result←{D-D, D-P, D-I, D-K};
14.	end
15.	else if TSTR_i = P then
16.	result←{P-P, P-D, P-I, P-K};
17.	end
18.	else if TSTR_i = I then
19.	result←{I-I, Null, (I-D, I-P, I-K), Null};
20.	end
21.	else if TSTR_i = K then
22.	result←{K-K, Null, K-I, (K-D, K-P)};
23.	end
24.	return result;
25.	}
26.	SMCost(){
27.	SMCost ← 0;
28.	if search_method_j∈SameGraph_DIKP then
29.	Probability←α;
30.	Weight←a;
31.	end
32.	else if search_method_j∈0-DiffGraph_DIKP then
33.	Probability←β;
34.	Weight←b;
35.	end
36.	else if search_method_j∈1-DiffGraph_DIKP then
37.	Probability←γ;
38.	Weight←c;
39.	end
40.	else if search_method_j∈2-DiffGraph_DIKP then
41.	Probability←θ;
42.	Weight←d;
43.	end
44.	SMCost←SMCost+ProbabilityWeight(SDCost_DIKP+CTCost_DIKP)*Scale +OtherCost;
45.	return SMCost;
46.	}
47.	SMEfficiency(SMCost, Resource){
48.	result←SMCost / Resource;
49.	return result;
50.	}

5.3 意图驱动下代价和影响力导向的资源搜索推荐算法

本节主要介绍了一种基于DIKP图谱的意图驱动、代价和影响力导向的搜索策略，以配合康养内容的传递交流过程。该策略是一种在特定限制下，期望代价与实际执行代价匹配的资源搜索方法。

首先基于DIKW理论的指导，将采集到的康养内容资源存储建模为DIKP图谱的形式。其后，明确康养用户要进行查询搜索的目标资源，进而结合用户自身的资源，扩充用户的搜索意图。最后在资源搜索过程中计算实际搜索代价，实现用户期望付出成本和执行搜索的实际代价在特定精度等限制下的匹配，解决用户付出与实际执行代价不匹配所造成的浪费问题，以及在不完整资源中进行有限度的可达性判断、搜索返回相关资源等问题。

其中根据用户输入的搜索目标内容资源，结合用户的个人资源，这些资源可以经关联融合操作后扩充用户的搜索意图，建立更加细致的用户意图图谱，满足用户更加广泛的搜索需求。例如当康养用户搜索“正常的睡眠时间”时，结合用户的个人资源后将用户的意图进行扩充，使其搜索意图并不仅仅局限为“获取正常的睡眠时间”，还包括“获取正常的睡眠环境”，“获取健康的身体状态”，以及“了解如何获取正常时间的睡眠”、“了解为什么要获取正常时间的睡眠”等，返回更加广泛的搜索结果。

5.3.1 确定候选返回资源集

候选返回资源是指以STR_i所在节点为中心，根据关联连线进行遍历搜索后得到的，这些资源均与STR_i相关，包括：（1）与STR_i直接存在特定关联的资源，以及以这些资源节点为中心向上或向下遍历存在包含关系的其他资源；（2）在STR_i所在图谱中以STR_i所在节点为中心向上或向下遍历存在包含关系的资源，以及与这些资源直接存在特定关联的其他资源。但这些候选返回资源的数量可能较为庞大，超出用户的真实需要，因此可通过设定精度的方式来减少候选集资源的个数。

返回资源的精度Precision，主要指返回图谱中以目标资源所在节点为中心的固定上下深度、广度的资源。Precision主要有两种，如公式（5-3）所示：

公式（5-3）

Pre_Self说明在STR_i所在图谱中以STR_i为中心的固定精度，Pre_SelfRelated指与STR_i直接存在特定关联的资源STR_SelfRelated在自身图谱下以STR_SelfRelated为中心的固定精度；

精度主要确定三个参数，Precision(UpDepth, LowDepth, Breadth)，分别表示上深度、下深度、广度。

上深度UpDepth指以中心资源沿着图谱边线向上遍历的深度数，下深度LowDepth指以中心资源沿着图谱边线向下遍历的深度数，广度Range表示向上或向下遍历时同一层级中可被返回的最大广度数。

5.3.2 基于资源影响力排序

候选返回资源集中的资源拥有不同的价值和重要性，用户可以从这些资源中获得不同的内容量。因此为了用户能够从返回资源中获得更多有价值、意义的资源，对候选返回资源集中的资源进行资源影响力排序，选取影响力靠前的资源返回给用户。

资源的影响力Influence主要受其价值Value和重要性Importance共同决定，参数a和b是价值和重要性对影响力的调节因子。当用户更注重返回资源的相关性时，可增加a的取值，当用户更注重资源的影响力时，可增加b的取值。

公式（5-4）

资源的价值Value是指资源能够向用户提供的有效相关内容量，Value是一种相对指代值，仅仅表示该资源在满足用户的特定需求时自身提供的价值。通常情况下，相同资源在满足不同需求时具体Value不同，不同资源在满足相同需求时相关程度影响了资源的价值。

存在以下价值大小规则：

（1）完全符合用户需求的资源即目标资源STR_i的Value大于STR_i精度要求下相关资源所提供的Value；

（2）在与STR_i的同等关系状态下Value(K_DIK)>Value(I_DIK)>Value(D_DIK,P_DIK)，即若资源均是STR_i的直接关联资源，则相关知识资源能够给用户带来更多的价值；表5是单位资源价值表，表示在不同图谱中找寻到的STR_i自身所能提供的原子价值，以此作为其他相关资源价值判断的基础；

表 5 单位资源价值表

Table 5 Unit resource value table

*STR*_i的模态	DIKP图谱
*STR*_i的模态	Data Graph	Information Graph	Knowledge Graph	Purpose Graph
D_DIK	Value_D-D	Value_D-I	Value_D-K	Value_D-P
I_DIK	Value_I-D	Value_I-I	Value_I-K	Value_I-P
K_DIK	Value_K-D	Value_K-I	Value_K-K	Value_K-P
P_DIK	Value_P-D	Value_P-I	Value_P-K	Value_P-P

候选返回资源集中的不同类型节点示意图如图29所示，对应的资源价值计算方法如下：

图 29 可被选入候选返回资源集的不同类型节点示意图

Fig. 29 Schematic representation of the different types of nodes that can be selected into a candidate return resource set

将目标资源STR_i本身的价值记为Value_Self，具体计算时根据现实情况与表三中的单位资源价值进行替换；

将目标资源STR_i的直接关联资源STR_iRelated记作类型①，其价值Value_SelfRelated计算方法如公式（5-5）所示：

公式（5-5）

公式（5-5）表示Value_SelfRelated是Value_Self的参数倍，Para(j)表示资源模态对价值的影响因子j表示STR_iRelated的模态，总体上0< Para(D_DIK), Para(P_DIK)< Para(I_DIK)< Para(K_DIK)< 1，Frequency表示资源的出现频数；

目标资源STR_i在自身类型化图谱中以STR_i节点为中心向上或向下遍历，返回精度Pre_Self要求内的资源STR_iSelfPre记作类型②，其价值计算方法如公式（5-6）所示：

公式（5-6）

其中N和M表示遍历方向上的层数，0<α, β<1，STR_iSelfPre离STR_i越远，所能提供的价值越小；

STR_iSelfPre的直接相关资源STR_iSelfPre_Related记作类型③，其价值计算如公式（5-7）所示：

公式（5-7）

STR_iRelated在Pre_SelfRelated要求内的资源STR_iRelatedPre记作类型④，其价值计算如公式（5-8）所示：

公式（5-8）

资源的重要性Importance是指资源在候选集图谱中的重要程度，可以从资源节点自身的重要性（Resource self importance，RSI）和全局的重要性（Resource global importance，RGI）两方面进行考虑，是一种绝对值。

公式（5-9）

资源节点的自身重要性RSI与节点的度degree成正比，度越高，认为其自身重要性越高。num是候选集图谱中节点的个数，γ是自身重要性的调节因子。此时取候选返回资源集中的节点和关系映射为候选返回资源图谱。资源节点的自身重要性RSI计算公式为（5-10）。

公式（5-10）

资源节点的全局重要性RGI是指资源除自身重要性外，同时也受到与它存在联系的其他资源的影响，这些资源越重要，它就越重要。其中资源节点间的距离distance(STR_i, STR_j)是影响资源全局重要性的重要因素，distance(STR_i, STR_j)与全局重要性成反比，如公式（5-11）所示。

公式（5-11）

资源重要性计算公式如（5-12）所示，c和d分别是自身重要性和全局重要性的调节因子。当更关注资源节点本身的重要性时，可以增加c的价值；若更重视其他相连节点时，则可以增加d。

公式（5-12）

5.3.3 投入和代价控制资源搜索推荐

在资源图谱中进行搜索时，若是不顾高昂的代价坚持返回所有的相关资源，则会产生严重的资源浪费。因为在DIKP图谱上，离目标资源节点越远的资源与目标资源的关联性越弱，所以无限度地返回资源就会导致很多与目标资源关联很弱甚至无关联的资源被推送给用户，这就造成了资源的浪费。为了解决此类问题，本文提出在资源图谱中进行搜索推荐等服务时严格遵守用户投入和搜索代价匹配的原则，由用户投入和服务具体花费代价来控制搜索推荐服务的开始与结束。

基于DIKP图谱的意图驱动、代价和影响力导向的搜索策略的具体流程主要包括三个阶段，如下所示：

（1）用户搜索目标扩充阶段

①用户输入搜索目标内容资源STR_i，i∈[1,n]说明目标资源个数；

②明确目标资源STR_i在用户图谱中的所属类别TSTR_i，如公式（5-13）所示：

公式（5-13）

将目标资源拆分，按以下形式表示：属于D和P的资源单独表示，属于I的资源表示时要进一步拆分成D和P关联的形式，属于K的资源表示时要拆成D和I关联的形式，其中I可进一步表示成D和P关联的形式；

③分析用户查询意图，获得用户查询意图图谱，如公式（5-14）所示；确定不同意图的搜索投资比率PInvest_Ratio，如公式（5-15）所示：

公式（5-14）

公式（5-15）

④目标资源结合用户意图图谱，搜索目标资源扩大。

（2）服务一存在判断阶段

①用户输入期望付出成本UserPay，确定用于服务一存在判断S1和服务二搜索返回资源S2的对应成本比例ProSer，如公式（5-16）所示：

公式（5-16）

②计算不同搜索意图P_j对应下，两种服务所耗的用户期望付出成本User_PayS1和UserPay_S2，如公式（5-17）所示：

公式（5-17）

③在用户搜索意图P_j驱动下，进入服务1存在判断阶段，用户可自行选择图谱搜索遍历算法；在DIKP图谱中搜索STR_i是否存在，在搜索执行的过程中计算服务1实际损耗代价RealCost_S1；

A. 当RealCost_S1<User_PayS1时，继续执行遍历搜索，直到查询到STR_i，返回“STR_i存在且可进入服务2”，结算剩余用户期望成本并将其补充进服务2所耗的用户期望付出成本，此时用户用于服务2的期望成本改变为NewUser_PayS2，如公式（5-18）所示：

公式（5-18）

B. 当RealCost_S1≥User_PayS1时，搜索停止，返回“在预期成本限定内未查询到STR_i”，询问是否调整期望服务所耗成本Pro_Ser占比使User_PayS1增加，继续进行查询，询问结果如下：

a) 若调整，确认新占比Pro_Ser’，其中Pro_Ser’>Pro_Ser，记录已查询路径与首次搜索结束节点EndNode_S1，重新计算用户期望成本User_PayS1’和User_PayS2’，计算调整后新增服务1所耗成本ΔUser_PayS1=User_PayS1’-User_PayS1，从EndNode_S1开始继续搜索直到查询到STR_i或User_PayS1’耗尽搜索停止询问用户是否调整Pro_Ser；

b) 若不调整，搜索停止，返回“在预期成本规定内未查询到STR_i”并提供：已查询路径具体内容、搜索结束节点EndNode、服务持续时间T_S1、总体实际损耗代价TotalCost=RealCost_S1；

其中服务1搜索执行的过程中实际损耗代价RealCost_S1主要由搜索难度SD、耗费时间CT、存储空间SP所造成的代价组成，如公式（5-19）所示：

公式（5-19）

搜索难度SD所造成的代价计算如公式（5-20）所示，其中SDCost是搜索难度原子代价，Number是已搜索资源个数：

公式（5-20）

耗费时间CT所造成的代价计算如公式（5-21）所示，其中CTCost是搜索难度原子代价：

公式（5-21）

存储空间SP所造成的代价计算如公式（5-22）所示，其中SPCost_i表示单位类型资源存储空间代价，Num_i表示对应类型资源的搜索个数。

公式（5-22）

（3）服务二搜索返回相关资源阶段

①由用户自身设定或系统学习确定返回资源的精度Precision；

②当服务一查询到目标资源STR_i，以STR_i所在节点为中心，根据关联连线进行遍历搜索后将相关资源放入候选返回资源集，计算资源的影响力大小并排序，并进行代价计算，其中系统计算资源影响力时所耗费的代价计算如公式（5-23）所示，UCICost是对一个资源进行影响力计算所耗的代价，Number是候选返回资源集中的资源个数；

公式（5-23）

服务二代价计算分别存在以下两种可能：

A. 若STR_i是通过完整查询方式在一个图谱中被完整查询到的，用CICost表示计算节点影响力导致的计算代价，此时代价计算公式为（5-24）：

公式（5-24）

B. 若STR_i是通过不完整查询方式在不同图谱中分别查询到部分STR_i，此时图谱中并无直接说明STR_i的内容，还需对采集到的部分STR_i进行判断和关联推理操作得到STR_i，此关联推理步骤花费的代价为ReasonCost，接下来按用户设定的Precision对部分STR_i进行遍历并存入候选返回资源集，此时代价计算公式如公式（5-25）所示：

公式（5-25）

③比较RealCost_S2与User_PayS2，若RealCost_S2＜User_PayS2，继续搜索并存储资源，若RealCost_S2≥User_PayS2，停止搜索并向用户返回资源；若采集完所有STR_i规定精度的资源后RealCost_S2仍未达到User_PayS2，则变更精度或将目标资源STR_i变更为STR_i精度规定内相关资源，再次进行服务二，直到RealCost_S2≥User_PayS2；搜索返回资源阶段完成。

5.4 应用实践

本文提出的搜索推荐策略可应用于康养内容资源的处理过程，本节以患有睡眠障碍的普通康养用户的搜索需求为例进行Matlab仿真模拟，说明DIKP理论下搜索推荐策略的具体实现过程。

本节从“寻医问药”医疗网站上爬取原始数据作为部分康养内容资源，并假定根据DIKP理论构建起对应的康养内容DIKP图谱，其图谱规模如表6所示：

表 6 仿真实验DIKP图谱规模表

Table 6 Scale table for DIKP Graphs of simulation experiments

对应数量	DIKP图谱
对应数量	Data Graph	Information Graph	Knowledge Graph	Purpose Graph
节点数	82,365	40,987	21,498	10,083
边数	64,300	37,400	19,636	8,762
规模	146,665	78,387	41,134	18,845

参数设置：

假定不同搜索方式中对应图谱上存在目标资源的概率Probability分别为：α=0.4，β=0.3，γ=0.2，θ=0.1；

不同搜索方式所占的权重Weight分别为：a=0.4，b=0.2，c=0.2，δ=0.2；

其他因素导致的搜索代价OtherCost为500，存储单位数据、信息、知识、意图导致的空间代价SPCost分别为1、3、3、1；

单位资源搜索难度SD和耗费时间CT所造成的代价如下表7所示，括号内第一个值是SDCost，第二个值是CTCost。

表 7 仿真实验单位资源搜索难度代价、耗费时间代价实例

Table 7 Simulation experiment unit resource search difficulty cost, time-consuming cost example

*STR*_i的模态	DIKP图谱
*STR*_i的模态	Data Graph	Information Graph	Knowledge Graph	Purpose Graph
D_DIK	(1,1)	(2,2)	(3,3)	(1,1)
I_DIK	(1/2,1/2)	(1,1)	(2,3/2)	(1/2,1/2)
K_DIK	(1/3,1/3)	(1/2,2/3)	(1,1)	(1/2,1/3)
P_DIK	(1,1)	(2,2)	(3,3)	(1,1)

5.4.1搜索排序与随机搜索效果对比

假设患有睡眠障碍的普通康养用户输入搜索目标内容资源STR₁=“正常的睡眠时间”，确定资源模态为数据，搜索意图为“获取正常的睡眠时间”；确定存在四种搜索STR₁的方式，分别为D-D, D-P, D-I, D-K；根据DIKP图谱遍历搜索算法进行搜索顺序排序，首先计算搜索方式对应的代价SMCost，再计算搜索目标资源的效率SMEfficiency，可得四种搜索方式对应的SMCost和SMEfficiency，如下表8所示：

表 8 不同搜索方式的代价和效率表

Table 8 Cost and efficiency table of different search methods

搜索方式	D-D	D-P	*D-I*	D-K
搜索代价*SMCost*	47,432.8	2,761.4	13,041.92	5,436.08
*搜索效率SMEfficiency***	0.576	0.274	0.318	0.253
排序	1	3	2	4

根据搜索效率进行综合排序，确定为搜索到数据模态的STR₁，遍历搜索图谱的顺序为：D—I—P—K。为了说明按排序后的搜索顺序进行目标资源搜索的效果，设计如下对比实验。

（1）确定目标资源所在图谱，已知所在图谱上存在目标资源的概率Probability，以及目标资源的所在位置；

（2）进行随机搜索，总共有24种搜索方案，分别计算按照24种搜索方案搜索到目标资源所花费的实际损耗代价RealCost_S1；

（3）将按排序后的方案搜索到目标资源所花费的实际损耗代价设为衡量标准Measurement，令实际损耗代价小于衡量标准的搜索方案为优于排序方案，实际损耗代价等于或大于衡量标准的搜索方案为等于或差于排序方案，统计优于、等于或差于排序方案个数并计算其与方案总个数的比值；

（4）设目标资源所在图谱为数据、信息、知识和意图图谱分别为事件A₁、A₂、A₃、A₄，随机搜索方案优于排序方案为事件B，随机搜索方案等于或差于优化排序方案为事件C，计算事件B和C的概率并进行比较。

假定此例STR₁存在于数据图谱中，且STR₁是第9800个搜索结点，分别排列24种搜索方案，并计算对应实际损耗代价RealCost_S1，如下表9所示：

表 9 仿真实验随机搜索实际损耗代价统计表

Table 9 Simulation experiment random search actual cost statistics table

方案		*RealCost_S1***	方案		*RealCost_S1***	方案		*RealCost_S1***
1	*D-I-P-K*	29,400	9	D-I-K-P	29,400	17	D-K-I-P	29,400
2	D-K-P-I	29,400	10	D-P-I-K	29,400	18	D-P-K-I	29,400
3	I-D-P-K	316,309	11	I-D-K-P	316,309	19	I-K-D-P	509,791
4	I-K-P-D	540,040	12	I-P-D-K	346,588	20	I-P-K-D	540,040
5	K-D-I-P	222,882	13	K-D-P-I	222,882	21	K-I-D-P	509,791
6	K-I-P-D	540,040	14	K-P-D-I	253,131	22	K-P-I-D	540,040
7	P-D-I-K	59,649	15	P-D-K-I	59,649	23	P-I-D-K	346,558
8	P-I-K-D	540,040	16	P-K-D-I	253,131	24	P-K-I-D	540,040

其中排序方案D—I—P—K的实际损耗代价为29,400。在目标资源STR₁存在于数据图谱中的情况下，24种搜索方案中优于优化排序方案的个数为0，等于或差于优化排序方案的个数为24。

同理，若目标资源STR₁存在于信息图谱且STR₁是第3400个搜索结点、目标资源STR₁存在于知识图谱且STR₁是第5680个搜索结点、目标资源STR₁存在于意图图谱且STR₁是第6435个搜索结点，可求得对应结果如图30所示。

根据全概率公式计算事件B“随机搜索方案优于排序方案”和事件C“随机搜索方案等于或差于排序方案”的概率：

公式（5-26）

由于P(B)<P(C)，随机搜索方案等于或差于排序方案的概率大于优于排序方案的概率，说明随机搜索下有更高的可能性是需要花费比排序方案更多或相等的代价才可遍历到目标资源。

因此，在实行搜索操作前根据基于DIKP图谱遍历搜索排序算法对搜索图谱的顺序进行排序，有益于使用户花费相对较小的代价而能获得相对准确和有效的资源。

图 30 目标资源STR_i位于不同图谱时搜索方案比较图

Fig.30 Comparison of search options when the target resource STR_i is located in different

Graphs

5.4.2搜索推荐策略应用示例

（1）确定候选返回资源集

假设康养用户A输入STR=“什么导致了睡眠障碍”，STR被划分为信息，可将该STR表示成<D(睡眠障碍), P(获取原因)>。

根据康养用户A的STR和相关资源，可通过资源融合转换技术分析用户意图，获得用户查询意图图谱：

搜索系统存在相关资源I₁=“用户A连续两周加班至凌晨”，D₁=“用户选定麻辣烫外卖时间，00:35”，并且存在部分意图图谱：P₁=“获取定义”，P₂=“获取措施”，P_Father=“了解某事物”，P(Is_and(P₁, P₂))Is_for(P_Father)；

STR与相关资源结合，得到新意图P₃=“获取身体方面原因”，P₄=“获取心理方面原因”，P₅=“获取饮食方面原因”，如公式（5-27）所示，构建的用户A搜索意图图谱如图31所示：

公式（5-27）

图 31 用户A的扩充搜索意图图谱

Fig.31 Expanded search purpose graph for User A

STR与用户A的扩充搜索意图图谱关联融合后，对应意图（P₁, P₂,..., P₅）得到新搜索目标资源（STR₁, STR₂,..., STR₅），其中STR₁=“睡眠障碍的定义”，STR₂=“应对睡眠障碍的措施”，STR₃=“导致睡眠障碍的身体原因”，STR₄=“导致睡眠障碍的心理原因”，STR₅=“导致睡眠障碍的饮食原因”。

以在搜索系统图谱中搜索STR₃为例确定候选返回资源集，STR₃被划分为信息。设定返回资源的精度Precision=<Pre_Self, Pre_SelfRelated>=<(3,3,5),(2,2,5)>。单位资源价值实例如表10所示。

表 10 仿真实验单位资源价值实例

Table 10 Simulation experiment unit resource value example

*STR*_i的模态	DIKP图谱
*STR*_i的模态	Data Graph	Information Graph	Knowledge Graph	Purpose Graph
D_DIK	1	2	3	1
I_DIK	1/2	1	3/2	1/2
K_DIK	1/3	2/3	1	1/3
P_DIK	1	2	3	1

按此精度搜索确定候选返回资源集如下表11所示：

表 11 仿真实验候选返回集资源实例

Table 11 Simulation experiment candidate return set resource instance

序号	资源所在图谱	搜索节点类型	具体内容	度 *degree*	频率*Frequency*
1	I	②	“呼吸困难导致睡眠不深”	4	30
2	I	③	“头部疾病导致睡眠质量差”	5	15
3	I	②	“身心疲惫可能导致入睡困难或早醒”	4	33
4	K	①	“偏头痛会导致睡眠障碍”	6	10
5	K	②	“精神压力会刺激睡眠”	4	8
6	K	④	“脑瘤压迫神经会导致睡眠差”	3	3
7	K	④	“长期服用咖啡碱药物会诱发失眠”	8	3

（2）基于资源影响力排序

参数设置：

设定资源影响力Influence计算公式中参数a=0.6，b=0.4；

价值计算公式中Para(D_DIK)=0.5，Para(P_DIK)=0.5，Para(I_DIK)=0.7，Para(K_DIK)=0.9，α=0.8，β=0.8；

在资源的重要性计算公式中γ=0.5，c=1，d=1。

计算得到候选返回集中资源的价值、重要性、影响力和最终排序结果，如表12所示：

表 12 候选集资源优化排序结果

Table 12 Candidate set resource optimization sorting results

序号	价值	重要性	影响力	排序结果
1	24	5.25	16.5	5
2	12	6.89	9.956	6
3	33	6.95	22.58	2
4	9	8.36	8.744	7
5	57.6	2.09	35.396	1
6	27	4.13	17.852	4
7	21.6	21.6	21.6	3

在其他意图的驱动下完成扩充搜索目标的搜索和排序，同样可采用该方案完成返回资源排序。该仿真实验说明了通过该搜索推荐策略，能够得到更加丰富的搜索结果，能够更好地满足用户对资源的搜索需求。

5.5 本章小结

本章首先阐述了人们对康养资源的获取需求日益提高，但现有的资源搜索方式并不能满足用户需求。本文在DIKP理论的支撑下，针对搜索能力有限情形设计了一种DIKP图谱遍历搜索排序方案，并且在期望代价与实际执行代价匹配的情形下，设计了一种在意图驱动下以资源价值和影响力共同决定相关资源排序结果的搜索推荐策略，使得返回的资源能够满足用户更加广泛的搜索需求，最后进行了仿真实验。

6 总结与展望

6.1 总结

随着物联网、物联网等科学技术的快速发展，数据作为一种新型的自然资源，已经和土地、劳动力等传统生产要素一起被纳入国家的生产要素中。数据对于任何行业都至关重要，如何更好地利用存储的海量数据，为人们的生活和工作带来更多的效益和价值，是当前的重要挑战之一。

本文针对传统的数据处理方法未能有效处理和使用数据的痛点，提出了基于DIKW理论的资源建模和处理方案，从资源的组织形式到不同模态资源的融合转换处理技术，整合同模态资源和跨模态资源的力量和价值，提高资源处理的效率和有效性，最终以更低的成本适应更广泛的人工智能应用场景，为数据处理和分析提供一种新的思路。主要研究工作归纳如下：

第一：完成了面向DIKW跨模态内容模型的设计与实现。将说明人类特定目的的资源构建为新的意图资源，进一步明晰了数据、信息和知识资源的概念；分析DIKP资源中存在的语义依赖关系并确定资源的转换范式，完成面向DIKW跨模态内容模型的通用建模方案的设计，分析康养和医疗交互背景下的用户体检过程相关资源并构建对应的DIKP模型，将其作为面向DIKW跨模态内容模型的具体实践。

第二，完成了跨模态内容融合转换处理技术的分析与实现。从康养和医疗交互的背景下，收集同模态内容资源和跨模态内容资源进行处理转换的各种实例，分析实例中存在的规律并将其梳理成抽象层次的内容资源处理方案，为数据处理和分析提供新的解决思路，同时在DIKP理论角度下探讨医患交流过程中出现理解偏差的原因，设计并实现一种基于意图驱动和资源融合转换技术来减少交流双方理解偏差的方案，作为跨模态内容融合转换处理技术的应用场景。

第三，完成了基于DIKP理论的康养内容资源搜索推荐方案的设计。面对康养背景下康养用户对相关内容资源的搜索推荐需求，本文在DIKP资源建模和融合转换处理技术的支持下，针对搜索能力有限情形设计了一种DIKP图谱遍历搜索排序方案，并且在期望代价与实际执行代价匹配的情形下，设计了一种在意图驱动下以资源搜索代价和影响力共同决定资源排序结果的搜索推荐策略，得到更加丰富、精确的搜索结果，其中搜索结果的形式并不仅仅局限于查询关键字的匹配链接，还可根据用户的自身意图匹配返回资源，能够更好地满足用户对资源的搜索需求。

6.2 展望

随着科技的发展，从用户各种行为活动中收集到的数据得到了广泛的开发和应用，特别是在商业决策领域，处理用户的数据能够为用户提供个性化推荐服务以及帮助商家进行市场定位与产品推广。这些数据是由用户生成的，可能包含用户隐私，如用户购物行为中的个人喜好、用户交友行为中的社交关系等。但是，企业出于经济利益的考虑，在未经用户许可的情况下收集用户数据，并在处理数据时不适当使用用户数据的情况并不鲜见。虽然国家在2021年9月正式实施了《中华人民共和国数据安全法》，以遏制一些企业非法收集和处理数据的行为，但数据相关法律尚不完善，尚未完全消除用户个人隐私被侵犯的可能性，需要不断探索包括用户、企业和国家在内的数据相关部门保护数据安全、释放数据价值的更有效方式。

鉴于此，下一步本研究拟从资源交流过程中不同参与方的隐私权角度出发，继续探讨DIKW理论下资源交流、处理、隐私保护等方面的具体方案，促进资源更充分、更有效和更合规的处理。

此外，本文对于面向DIKW的跨模态内容的建模研究和处理实践，基本达到预期的目标，但是仍然存在着不足之处：

第一：当前的DIKP资源建模方法和结果还较为简单、不够成熟，仍需要进一步补充完善；

第二：DIKP理论的具体应用不够完善，需要根据实际问题细化方案，并且当前的数据集多是仿真数据，需要面对实际情况采集更多数据。

下一步将继续深入探讨理解DIKP理论，并收集更多的人工智能应用场景的跨模态资源处理和应用实例，总结规律并完善资源建模和处理方案，同时积极采用更多可视化手段对DIKP图谱模型进行美化修饰，使DIKP图谱能够更好地被人们理解和使用，促进DIKP相关理论解决更多的人工智能应用问题。

参考文献

[1] 曹步清, 段玉聪, 邵礼旭, 等. 投入驱动的存储与计算一体化的事务处理效率优化方法[J]. 计算机工程与科学, 2018, 40(08): 1383-1389.

[2] 常亮, 邓小明, 周明全, 等. 图像理解中的卷积神经网络[J]. 自动化学报, 2016, 42(09): 1300-1312.

[3] 陈琰, 崔员宁, 李静, 等. TransPath:一种基于深度迁移强化学习的知识推理方法[J]. 小型微型计算机系统, 2022, 43(03): 536-543.

[4] 池云仙, 罗燕, 赵书良, 等. 基于词频统计规律的文本数据预处理方法[J]. 计算机科学, 2017, 44(10): 276-282+288.

[5] 戴明锋, 孟群. 医疗健康大数据挖掘和分析面临的机遇与挑战[J]. 中国卫生信息管理杂志, 2017, 14(02): 126-130.

[6] 窦悦, 黄倩倩, 王璟璇, 等. 全国一体化大数据中心引领下超大规模数据要素市场的体系架构与推进路径[J].电子政务, 2021, 2021(06):20-28.

[7] 段玉聪, 张欣悦, 周长兵, 等. 面向隐式类型化资源的安全防护[J]. 计算机科学与探索, 2019, 13(12): 2061-2072.

[8] 高峰, 顾进广, 熊辉. 基于知识表示学习的实时语义数据流推理[J]. 计算机应用与软件, 2022, 39(02): 26-31+94.

[9] 高桓, 漆桂林, 吴天星. 知识图谱研究进展[J]. 情报工程, 2017, 3(1): 4-25.

[10] 高景宏, 翟运开, 李明原, 等. 精准医疗领域健康医疗大数据处理的研究现状[J]. 中国医院管理, 2021, 41(05): 8-13.

[11] 龚芳海. 大数据分析下分布式数据流处理技术研究[J]. 电子元器件与信息技术, 2020, 4(02): 92-93.

[12] 官赛萍, 贾岩涛, 靳小龙, 等. 面向知识图谱的知识推理研究进展[J]. 软件学报, 2018, 29(10): 2966-2994.

[13] 郭文忠, 林森, 张宇, 等. 深度学习与知识推理相结合的研究综述[J]. 计算机工程与应用, 2022, 58(01): 56-69.

[14] 郝欣恺. 人工智能技术发展及应用研究综述[J]. 环渤海经济瞭望, 2020, 2020(09): 152-153.

[15] 何华灿. 重新找回人工智能的可解释性[J]. 智能系统学报, 2019, 14(03): 393-412.

[16] 何朔. 金融行业云计算创新服务模式研究[J]. 信息技术与标准化, 2017, 2017(09): 33-36+41.

[17] 贺丽荣, 盛泳潘, 徐增林, 等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(04): 589-606.

[18] 洪伟, 黎雪微, 应时. 基于语义关联和信息距离的个性化推荐方法研究[J]. 情报理论与实践, 2019, 42(11): 142-149.

[19] 侯梦薇, 陆亮, 卫荣, 等.知识图谱研究综述及其在医疗领域的应用[J]. 计算机研究与发展, 2018, 55(12): 2587-2599.

[20] 华为公司数据管理部.华为数据之道[M]. 北京:机械工业出版社, 2020: 17-23．

[21] 华颖. 健康中国建设:战略意义、当前形势与推进关键[J]. 国家行政学院学报, 2017, 2017(06): 105-111+163.

[22] 黄陵. 网络环境下的大数据采集和处理[J]. 网络安全技术与应用, 2020, 2021(07): 71-72.

[23] 黄伟, 李莉, 徐彭娜. 医疗知识图谱的自动问答系统分析研究[J]. 福建电脑, 2021, 37(11): 100-103.

[24] 李传富, 聂莉莉, 许晓倩, 等. 人工智能在医学诊断知识图谱构建中的应用研究[J]. 医学信息学杂志, 2018, 39(06): 7-12.

[25] 李昆仑, 戎静月, 苏华仃. 融合项目和用户隐式反馈的个性化推荐系统[J]. 小型微型计算机系统, 2020, 41(03): 519-525.

[26] 李镕辉, 孟琭. 新型冠状病毒肺炎(COVID-19)医学影像AI诊断研究进展[J]. 中国图象图形学报, 2020, 25(10): 2058-2067.

[27] 刘彬, 李雪, 张解和.大数据技术在药物研发应用的研究进展[J].广州化工, 2020, 48(20): 30-31+72.

[28] 刘华东, 张新新. 出版+人工智能:未来出版的新模式与新形态——以《新一代人工智能发展规划》为视角[J]. 科技与出版, 2017, 2017(12): 38-43.

[29] 卢克, 梁昕, 张晨. 基于嵌入式人工智能的智慧医疗健康管理系统设计[J]. 工业控制计算机, 2022, 35(02): 41-43.

[30] 面向本质计算的跨模态用户医疗数据分析方法[P]. 中国. CN112309521B. 2021-02-02.

[31] 钱育蓉, 张正航, 行艳妮, 等. 知识表示学习方法研究综述[J]. 计算机应用研究, 2021, 38(04): 961-967.

[32] 孙建强, 许少华. 基于可微神经计算机和贝叶斯网络的知识推理方法[J]. 计算机应用, 2021, 41(02): 337-342.

[33] 王天夫, 罗婧, 闫泽华, 等. 2021中国医师调查报告[R]. 清华大学社科学院中国社会调查与研究中心. 2021.

[34] 魏文斌. “AI+医疗”实现眼与全身疾病预警和个性化健康服务[J]. 机器人产业, 2018, 2018(06): 90-93.

[35] 叶梦颖. 信息概念的再诠释：论布鲁塞尔学派耗散结构理论对香农信息论的补充与发展[D]. 中国广州. 暨南大学. 2020.

[36] Ackoff R L. From data to wisdom[J]. Journal of Applied Systems Analysis, 1989,16:3-9.

[37] Adnan K, Akbar R, Wang K S. Development of Usability Enhancement Model for Unstructured Big Data Using SLR[J]. IEEE Access, 2021, 9: 87391-87409.

[38] Ahmed S, Blessing L, Wallace K M. The Relationship Between Data, Information and Knowledge based on an Observation of Engineering Designers: Design Theory and Methodology[J]. Proc. of the ASME DETC99/DTM-8754, Las Vegas,1999: 121-130.

[39] Alhawamdeh S. Knowledge management: re-thinking information management and facing the challenge of managing tacit knowledge[J]. Information Research, 2001,8(2).

[40] Allen G D. Hierarchy of knowledge-from data to wisdom[J]. International Journal of Current Research in Multidisciplinary (IJCRM), 2016, 2(1): 1-23.

[41] Armbrust M, Fox A, Griffith R, et al. Above the Clouds: A Berkeley View of Cloud Computing[J]. science, 2009, 8:1-23.

[42] Aukett J. The DIKW pathway: a route to effective oral health promotion?[J]. British dental journal, 2019, 226(11): 897-901.

[43] Aven T. A conceptual framework for linking risk and the elements of the data- information- knowledge- wisdom (DIKW) hierarchy[J]. Reliability Engineering & System Safety, 2013, 111(MAR.): 30-36.

[44] Bala S A, Kant S O, Yakasai A G. Deep Learning In Medical Imaging And Drug Design[J]. Journal of Human Physiology, 2020, 2(2):6-10.

[45] Bashar A S, Sung-Hyon M. Wikipedia-based query phrase expansion in patent class search[J]. Information retrieval, 2014, 17(5a6): 430-451.

[46] Benson K, Dowsley R, Shacham H. Do you know where your cloud files are?[C]. Association for Computing Machinery. Proceedings of the 3rd ACM workshop on Cloud computing security workshop (CCSW '11). New York, NY, USA: ACM, 2011: 73-82.

[47] Bogaerts B, Vennekens J, Denecker M. Safe inductions and their applications in knowledge representation[J]. Artificial Intelligence, 2018, 259: 167-185.

[48] Buckland M. Information as thing[J]. Journal of the American Society for information science, 1991, 42(5): 351-360.

[49] Cai B, Li Y M. Design and Development of Semantic-Based Search Engine Model[C]. 2014 7th International Conference on Intelligent Computation Technology and Automation (ICICTA). Piscataway, NJ: IEEE, 2014: 145-148.

[50] Cai H, Xu B, Jiang L, et al. IoT-Based Big Data Storage Systems in Cloud Computing: Perspectives and Challenges[J]. IEEE Internet of Things Journal, 2017, 4(1): 75-87.

[51] Caruccio L, Polese G, Tortora G, et al. EDCAR: A knowledge representation framework to enhance automatic video surveillance[J]. Expert Systems with Applications, 2019, 131: 190-207.

[52] Cesar S, Zhang H, Imran S, et al. Experience based knowledge representation for Internet of Things and Cyber Physical Systems with case studies[J]. Future generation computer systems, 2019, 92(MARa): 604-616.

[53] Chen M, Ebert D, Hagen H, et al. Data, Information, and Knowledge in Visualization[J]. IEEE Computer Graphics and Applications, 2009, 29(1): 12-19.

[54] Chen T T, Chen Z M, Zhou Z X. Computational research and implementation of prediction of pork price based on deep learning[J]. Journal of Physics(Conference Series), 2021, 1815(1):12-32.

[55] Chen WT, Zhang Q,Jin MZ, et al. Research on online consumer behavior and psychology under the background of big data[J]．Concurrency and computation:practice and experience, 2019, 31(10): e4852.1-e4852.5

[56] Coffman T, Greenblatt S, Marcus S. Graph-based technologies for intelligence analysis[J]. Communications of the ACM, 2004,47(3): 45-47.

[57] Dammann O. Data, Information, Evidence, and Knowledge::A Proposal for Health Informatics and Data Science.[J]. Online journal of public health informatics, 2018, 10(3): e224-e228.

[58] Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2D knowledge graph embeddings[C]. Proceedings of the AAAI Conference on Artificial Intelligence. Texas, Austin: AAAI Press, 2018, 32(1).

[59] Diaz-Sanchez D, Almenarez F, Marin A, et al. Media cloud: an open cloud computing middleware for content management[J]. IEEE Transactions on Consumer Electronics, 2011, 57(2): 970-978.

[60] Duan Y, Lu Z, Zhou Z, et al. Data Privacy Protection for Edge Computing of Smart City in a DIKW Architecture[J]. Engineering Applications of Artificial Intelligence, 2019a, 81(MAY): 323-335.

[61] Duan Y, Zhan L, Zhang X, et al. Formalizing DIKW architecture for modeling security and privacy as typed resources[C]. International Conference on Testbeds and Research Infrastructures. Berlin, German: Springer, 2018: 157-168.

[62] Duan Y. Existence Computation: Revelation on Entity vs. Relationship for Relationship Defined Everything of Semantics[C]. The 20th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD). Piscataway, NJ: IEEE, 2019b: 139-144.

[63] Duan Y, Shao L, Hu G, et al. Specifying architecture of knowledge graph with data graph, information graph, knowledge graph and wisdom graph[C]. IEEE International Conference on Software Engineering Research. Piscataway, NJ: IEEE, 2017: 327-332.

[64] Eftimov T, Ispirova G, Potočnik D, et al. ISO-FOOD ontology: A formal representation of the knowledge within the domain of isotopes for food science[J]. Food chemistry, 2019, 277: 382-390.

[65] Elkin L S, Topal K, Bebek G. Network based model of social media big data predicts contagious disease diffusion[J]. Information Discovery and Delivery, 2017, 45(3): 110-120.

[66] Emrouznejad A . Big Data Optimization: Recent Developments and Challenges[M]. Berlin, German: Springer,2016: 1-470.

[67] Escott-Price V, Shoai M, Pither R, et al. Polygenic score prediction captures nearly all common genetic risk for Alzheimer's disease[J]. Neurobiology of Aging, 2017, 49:214.e7-214.e11.

[68] Faucher J, Everett M, Lawson R. Reconstituting knowledge management[J]. Journal of Knowledge Management, 2008, 12(3): 3-16.

[69] Faridi F, Sarwar H, Ahtisham M, et al. Cloud computing approaches in health care[J]. Materials Today: Proceedings, 2022, 51: 1217-1223.

[70] Frické M. The Knowledge Pyramid: the DIKW Hierarchy[J]. Journal of Information Science, 2009, 35(2): 131-142.

[71] Frické M. The Knowledge Pyramid: the DIKW Hierarchy[J]. Knowledge Organization, 2019, 46(1): 33-46.

[72] Gandhi M, Singh V K, Kumar V. IntelliDoctor-AI based Medical Assistant[C]. 2019 Fifth International Conference on Science Technology Engineering and Mathematics. 2019: 162-168.

[73] Gao R, Li C. Knowledge Question-Answering System Based on Knowledge Graph of Traditional Chinese Medicine[C]. 2020 IEEE 9th Joint International Information Technology and Artificial Intelligence Conference (ITAIC). Piscataway, NJ: IEEE, 2020: 27-31.

[74] Ghahramani Z. Probabilistic machine learning and artificial intelligence[J]. Nature, 2015, 521(7553): 452-459.

[75] Gluskin RT, Johansson MA, Santillana M, et al. Evaluation of Internet-based dengue query data: Google Dengue Trends[J]. PLoS Negl Trop Dis. 2014, 8(2): e2713-e2716.

[76] Grimm S R. Understanding as Knowledge of Causes[J].Virtue Epistemology Naturalized: Bridges Between Virtue Epistemology and Philosophy of Science. 2014,366: 329-345.

[77] Harry D. Tunnell IV．Network-Centric Warfare and the Data-Information-Knowledge-Wisdom Hierarchy[J]. Military review, 2014, 94(3): 43-50.

[78] Hemingway H, Asselbergs FW, Danesh J, et al. Big data from electronic health records for early and late translational cardiovascular research: challenges and potential. European Heart Journal, 2018, 39(16): 1481-1495.

[79] Hinton GE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.

[80] Hoppe A, Seising R, Nurnberger A, et al. Wisdom-the blurry top of human cognition in the DIKW-model?[C]. Conference of the European Society for Fuzzy Logic & Technology. 2011.

[81] Huang Z, Chan T M, Dong W. MACE prediction of acute coronary syndrome via boosted resampling classification using electronic medical records[J]. Journal of Biomedical Informatics, 2017, 66: 161-170.

[82] Jia Y, Tan Z, Zhang J. DKDR: An Approach of Knowledge Graph and Deep Reinforcement Learning for Disease Diagnosis[C]. 2019 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking (ISPA/BDCloud/SocialCom/SustainCom). Piscataway, NJ: IEEE, 2019: 1303-1308.

[83] Jindal A, Dua A, Kumar N, et al. Providing Healthcare-as-a-Service Using Fuzzy Rule-Based Big Data Analytics in Cloud Computing[J]. IEEE Journal of Biomedical & Health Informatics, 2018, 22(5): 1605-1618.

[84] Johnson D J. Managing Knowledge Networks[M]. Cambridge, UK, New York: Cambridge University Press, 2009: 216-238.

[85] Jothilakshmi R, Shanthi N, Babisaraswathi R. An approach for semantic query expansion based on maximum entropy-hidden Markov model[C]. International Conference on Computing. Piscataway, NJ: IEEE, 2013: 1-5.

[86] Kangueane P. Bioinformation Discovery: Data to Knowledge in Biology[M]. Piscataway, NJ: IEEE, 2018: 1-26.

[87] Kargin A, Petrenko T. Knowledge Representation in Smart Rules Engine[C]. 2019 3rd International Conference on Advanced Information and Communications Technologies (AICT).2019: 231-236.

[88] Khanagar S B, Al-Ehaideb A, Vishwanathaiah S, et al. Scope and performance of artificial intelligence technology in orthodontic diagnosis, treatment planning, and clinical decision-making- A systematic review[J]. Journal of dental sciences, 2020, 16(1): 482-492.

[89] Koopman B, Bruza P, Sitbon L, et al. Towards Semantic Search and Inference in Electronic Medical Records: an approach using concept based information retreival[J]. Australasian Medical Journal, 2012, 5(9): 482-488.

[90] Lee J Y. Experimental Evaluation of Deep Learning Methods for an Intelligent Pathological Voice Detection System Using the Saarbruecken Voice Database[J]. Applied Sciences, 2021, 11(15): 7149-7163.

[91] Liew A. DIKIW: data, information, knowledge, intelligence, wisdom and their interrelationships[J]. Business Management Dynamics, 2013, 2(10): 49-62.

[92] Li D, Landström A, Fast-Berglund A, et al. Human-Centred Dissemination of Data, Information and Knowledge in Industry 4.0[J]. Procedia CIRP, 2019, 84(C): 380-386.

[93] Li J, Xu Q, Cuomo R, et al. Data Mining and Content Analysis of the Chinese Social Media Platform Weibo During the Early COVID-19 Outbreak: Retrospective Observational Infoveillance Study[J]. JMIR Public Health and Surveillance, 2020, 6(2):e18700-e18706.

[94] Li S, Liu X, Li C. Research on Risk Prediction Model of Internet Finance Based on Cloud Computing[J]. Journal of Mathematics, 2022, 2022 :1-9.

[95] Li Y, Duan Y, Maama Z,et al. Swarm Differential Privacy for Purpose Driven Data-Information-Knowledge-Wisdom Architecture[J]. Mobile Information Systems, 2021, 2021: 1-15.

[96] Lin Y K , Liu Z Y, Sun M S, et al. Learning Entity and Relation Embeddings for Knowledge Graph Completion[C]. Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Texas, Austin: AAAI Press, 2015: 2181-2187.

[97] Lobov A. Smart manufacturing systems: climbing the DIKW pyramid[C]. IECON 2018-44th Annual Conference of the IEEE Industrial Electronics Society. Piscataway, NJ: IEEE, 2018: 4730-4735.

[98] Lott JP, Boudreau DM, Barnhill RL, et al. Population-Based Analysis of Histologically Confirmed Melanocytic Proliferations Using Natural Language Processing. JAMA Dermatol, 2018, 154(1): 24-29.

[99] Intezari A, Pauleen D, Taskin N. The DIKW hierarchy and management decision-making [C]. 2016 49th Hawaii International Conference on System Sciences (HICSS). Piscataway, NJ: IEEE, 2016: 4193-4201.

[100] Matney S, Brewster P J, Sward K A, et al. Philosophical approaches to the nursing informatics data-information-knowledge-wisdom framework.[J].Advances in Nursing Science, 2011, 34(1): 6-18.

[101] Merkus J, Helms R, Kusters R J. Data Governance and Information Governance: Set of Definitions in Relation to Data and Information as Part of DIKW[C]. ICEIS 2019: 21st International Conference on Enterprise Information Systems. Heraclion, Greece: SCITEPRESS, 2019:143-154.

[102] Mishra K. A dikw architecture for cognitive engineering[J]. Procedia computer science, 2018, 123: 285-289.

[103] Mohbey K. The role of big data, cloud computing and IoT to make cities smarter[J]. International Journal of Society Systems Science, 2017, 9(1): 75.

[104] Mourão A, Martins F, Magalhães J. Multimodal medical information retrieval with unsupervised rank fusion[J]. Computerized Medical Imaging & Graphics, 2015, 39: 35-45.

[105] Nickel M, Murphy K, Tresp V, et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE, 2015, 104(1): 11-33.

[106] Nurulin Y, Skvortsova I, Tukkel I, et al. Role of Knowledge in Management of Innovation[J]. Resources, 2019, 8(2): 87.

[107] Pathare S, Vijayakumar L, Fernandes T N, et al. Analysis of news media reports of suicides and attempted suicides during the COVID-19 lockdown in India[J]. International Journal of Mental Health Systems, 2020, 14(1): 88.

[108] Paulheim H. Knowledge graph refinement:a survey of approaches and evaluation methods[J]. Semantic Web, 2017, 8(3): 489-508.

[109] Perrotti E. Estrutura organizacional e gesto do conhecimento[J]. Revista Eletrnica De Ciência Administrativa, 2005, 4(2): 1-18.

[110] Pham D H, Le A C. Learning multiple layers of knowledge representation for aspect based sentiment analysis[J]. Data & Knowledge Engineering, 2017, 114(MAR.): 26-39.

[111] Pujara J, Hui M, Getoor L, et al. Knowledge Graph Identification[J]. Lecture Notes in Computer Science, 2013, 8218: 542-557.

[112] Ren L, Lu J, Guo W. Multi-source Knowledge Embedding Research of Knowledge Graph[C]. 2019 IEEE 3rd International Conference on Circuits, Systems and Devices (ICCSD). Piscataway, NJ: IEEE, 2019: 163-166.

[113] Rothsching M, Eickhoff A, Vetter S, et al. Medical data, information, and knowledge.[J]. Methods Inf Med, 1988, 27(03): 109-110.

[114] Rowley J. The wisdom hierarchy: representations of the DIKW hierarchy[J]. Journal of Information Science, 2007, 33(2): 163-180.

[115] Sato A, Huang R. A Generic Formulated KID Model for Pragmatic Processing of Data, Information, and Knowledge[C]. Ubiquitous Intelligence & Computing & IEEE Intl Conf on Autonomic & Trusted Computing & IEEE Intl Conf on Scalable Computing & Communications & Its Associated Workshops. Piscataway, NJ: IEEE, 2016: 609-616.

[116] Schumaker R. From data to wisdom: the progression of computational learning in text mining[J]. Communications of the IIMA, 2011, 11(1): 39-48.

[117] Severyn A, Moschitti A. Twitter Sentiment Analysis with Deep Convolutional Neural Networks[C]. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. Association for Computing Machinery. New York, NY, USA: ACM, 2015: 959-962.

[118] Shafiullah M, Abido M A, Al-Mohammed A H. Artificial intelligence techniques[M]. Amsterdam: Elsevier, 2022: 69-100.

[119] Shao L, Duan Y, Sun X, et al. Answering Who/When, What, How, Why through Constructing Data Graph, Information Graph, Knowledge Graph and Wisdom Graph[C]. The 29th International Conference on Software Engineering and Knowledge Engineering. 2017a:1-6.

[120] Shao L, Duan Y, Zhou Z, et al. Learning Planning and Recommendation Based on an Adaptive Architecture on Data Graph, Information Graph and Knowledge Graph[C]. International Conference on Collaborative Computing: Networking, Applications and Worksharing. Berlin, German: Springer, 2017b: 323-332.

[121] Schopenhauer A. The world as will and representation[M]. Courier Corporation, 2012.

[122] Silberman M. The handbook of experiential learning[M]. John Wiley & Sons, 2007.

[123] Sultan N. Making use of cloud computing for healthcare provision: Opportunities and challenges[J]. International Journal of Information Management, 2014, 34(2): 177-184.

[124] Sun Z, Hu W, Li C. Cross-lingual entity alignment via joint attribute-preserving embedding[C]. International Semantic Web Conference. Berlin, German: Springer, 2017: 628-644.

[125] Topol E J. High-performance medicine: the convergence of human and artificial intelligence[J]. Nature Medicine, 2019, 25(1): 44-56.

[126] Tsai C J, Riaz N, Gomez S L. Big Data in Cancer Research: Real-World Resources for Precision Oncology to Improve Cancer Care Delivery[J]. Seminars in radiation oncology, 2019, 29(4): 306-310.

[127] Wan K, Alagar V. (2014). Synthesizing data-to-wisdom hierarchy for developing smart systems[C]. 2014 11th International Conference on Fuzzy Systems and Knowledge Discovery. 2014: 473-478.

[128] Wang Q, Jiang Y. GIS cloud computing based government Big Data analysis platform[C]. 2021 IEEE 2nd International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering (ICBAIE). Piscataway, NJ: IEEE, 2021: 252-255.

[129] White T. Hadoop: The Definitive Guide[J]. O'rlly Media Inc Gravenstn Highway North, 2012, 215(11): 1-4.

[130] Wyld D C. Moving to the cloud: An introduction to cloud computing in government[J]. ibm center for the business of government.Director, 2022: 94-97.

[131] Ye J, Chen M, Xie H, et al. A discussion on the normative expression of information concepts-comment on the definition of information in terms of library, information and documentation[J]. University Library Work, 2019, 39(1): 16-20.

[132] Zhao F, Sun Z, Jin H. Topic-centric and semantic-aware retrieval system for internet of things[J]. Information Fusion, 2015, 23: 33-42.

[133] Zhang A. Discovering the Knowledge Monopoly of Law Librarianship Under the DIKW Pyramid[J]. Law Libr. J., 2016, 108: 599-603.

[134] Zhu W, Wang X, Cui P. Deep Learning for Learning Graph Representations[J]. Deep Learning: Concepts and Architectures, 2020, 866:169-210.

[135] Zins C. Conceptual approaches for defining data, information, and knowledge[J]. Journal of the American society for information science and technology, 2007, 58(4): 479-493.

图/表目录

图目录

图 14 D_DIK +_DIK P_DIK=I_DIK示意图

图 15 资源节点及关系连线均完整时I_DIK -_DIK P_DIK=D_DIK搜寻过程示意图

图 16 资源节点及关系连线不完整时I_DIK -_DIK P_DIK=D_DIK搜寻过程示意图

图 21 医生A和康养用户B关于体检的部分数据图谱

图 22 医生A和康养用户B关于体检的部分意图图谱

图 23 医生A和康养用户B关于体检的部分信息图谱

图 24 医生A和康养用户B关于体检的部分知识图谱

图 25 交流双方意图冲突示例

图 26 交流双方内容冲突示例

图 27 DIKP理论下用户交流沟通过程流程图

图 28 TR_i相关的上下文DIKP资源示意图

图 29 可被选入候选返回资源集的不同类型节点示意图

图 30 目标资源STR_i位于不同图谱时搜索方案比较图

图 31 用户A的扩充搜索意图图谱

表目录

表 7 仿真实验单位资源搜索难度代价、耗费时间代价实例

表 8 不同搜索方式的代价和效率表

表 9 仿真实验随机搜索实际损耗代价统计表

表 10 仿真实验单位资源价值实例

表 11 仿真实验候选返回集资源实例

表 12 候选集资源优化排序结果

攻读硕士学位期间取得的学术成果

参与的科研项目：

1. 赛尔网络下一代互联网技术创新项目：面向智慧校园Ipv6的安全态势感知与自动报警系统，项目编号：NGII20180607

2. 海口市高价值专利组合（专利池）培育项目：智慧城市建设高价值专利组合（专利池）------跨模态多维度智慧处理与优化高价值专利组合，项目编号：RZ20000089

发表论文：

1. Fan K, Duan Y. Purpose Computation-Oriented Modeling and Transformation on DIKW Architecture[J]. EAI/Springer Innovations in Communication and Computing, 2022:45-63.

授权发明专利：

1. 段玉聪, 樊珂, 湛楼高, 雷羽潇, 宋蒙蒙. 价值驱动的面向目的融合的优化系统[P]. 中国：CN111143345B, 2020-11-27.

2. 段玉聪, 樊珂, 湛楼高, 宋蒙蒙, 雷羽潇, 曹凯. 价值驱动的多因素维度空间多介尺度融合的动态推荐系统[P]. 中国：CN111177571B, 2020-11-27.

3. 段玉聪, 湛楼高, 曹凯, 邓加成, 樊珂, 雷羽潇, 赵峻, 李宁. 多维度价值导向的针对意图的面向对象数值计算方法[P]. 中国：CN111026879B, 2020-11-06.

4. 段玉聪, 湛楼高, 曹凯, 樊珂, 雷羽潇, 邓加成, 赵俊, 李宁. 场景、事件、人物与意图匹配的智能提醒机制[P]. 中国：CN110969420B, 2020-11-20.

致谢

距离我踏上海南岛这片温暖的土地，也已将近三年了，回想读研的时光，内心百感交集。在此，我想对母校以及所有给予我帮助、鼓励和陪伴的人致以真挚的感谢。

学贵为师，亦贵为友，恩师难忘，牢记于心。感谢我的导师段玉聪教授，是段老师在这三年间一直教导我、鼓励我，让我学会了如何科学地思考并解决问题，如何在有限的时间里将自己的能力彻底释放出来。同样也是段老师让我们知道，只有健康的身体和坚持不懈的学习才能让我们在人生的赛道上跑的更远。段老师严谨的治学精神和认真的工作态度对我影响深远，会是我一生努力追寻的学习目标。在此，本人再次向段老师施以最为崇高的敬意，饮其流时思其源，吾学成时念恩师。

萍水相逢，三生有幸。感谢师门的小伙伴们，感谢我可爱的舍友们，感谢网安学院所有同学对我的帮助和鼓励，是你们让我感受到了在学习、生活的路上有挚友相伴是一件多么美好的事情！

春晖寸草，山高海深。我同样衷心地感谢我的家人们，在你们的鼓励和安慰下，我走过了那一段迷茫的路程，我逐渐有了无穷无尽的动力和勇气去面对生活和学习中的一切困难，你们永远是我的奋斗源泉。

以梦为马，不负韶华。在此，我也要对一直坚持的自己说一声谢谢，人生是一场修行，愿不忘初心，永远保持乐观，坚持学习，努力进步。

我再一次对学习生活中遇到的所有人表示衷心感谢，盼诸君前途似锦，愿你我未来可期。

最后，感谢各位评审老师对我论文提出的宝贵意见，感谢网络空间安全学院所有老师给我提供的各种支持和帮助。

樊珂

2022年5月

转载本文请联系原作者获取授权，同时请注明本文来自段玉聪科学网博客。
链接地址：https://m.sciencenet.cn/blog-3429562-1369738.html

上一篇：基于DIKW的发明专利智能申请与答复系统的设计与实现（指导的2021年5月硕士毕业论文）
下一篇：面向DIKW图谱的AI治理技术化方法研究（指导的2022年5月硕士毕业论文旧版）

收藏分享

当前推荐数：1 推荐人：杨正瓴

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

段玉聪

扫一扫，分享此博文

YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

面向DIKW的跨模态内容建模研究和处理实践（指导的2022年5月硕士毕业论文旧版）

1 绪论

1.1 研究背景及意义

1.1.1 数据资源处理

1.1.2 康养内容资源处理

1.2 国内外研究现状

1.3 本文研究内容

1.4 本文组织结构

1.5 本章小结

2 相关理论与技术

2.1 DIKW概念综述

2.1.1 DIKW层次结构

2.1.2 数据研究

2.1.3 信息研究

2.1.4 知识研究

2.1.5 智慧研究

2.2 DIKW元模型及其图谱架构

2.3 知识表示学习

2.4 知识推理

2.5 语义搜索

2.6 本章小结

3.1 研究动机

3.2 面向DIKW跨模态内容模型

3.2.1 概念抽象层构建

3.2.2 同模态关系体系层构建

3.2.3 跨模态图谱关联层构建

3.2.4 特殊资源处理与动态更新层构建

3.3 面向DIKW跨模态内容模型应用

3.3.1 建模背景介绍

3.3.2 康养资源模型示例

3.4 本章小结

4.1 研究动机

4.2 内容融合转换处理技术

4.2.1 意图融合转换

4.2.2 同模态融合转换

4.2.3 跨模态融合转换

4.3 跨模态内容融合转换处理技术应用

4.3.1 医患冲突背景介绍

4.3.2 DIKP理论下理解偏差问题具体表现

4.3.3 基于DIKP理论减少理解偏差应用

4.4 本章小结

5.1 研究动机

5.2 DIKP图谱遍历搜索排序算法

5.3 意图驱动下代价和影响力导向的资源搜索推荐算法

5.3.1 确定候选返回资源集

5.3.2 基于资源影响力排序

5.3.3 投入和代价控制资源搜索推荐

5.4 应用实践

5.4.1搜索排序与随机搜索效果对比

5.4.2搜索推荐策略应用示例

5.5 本章小结

6.1 总结

表目录

当前推荐数：1 推荐人： 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

段玉聪

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：杨正瓴

该博文允许注册用户评论请点击登录评论 (0 个评论)