中国经济网·中经云端

全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告发布

蓬勃海南

2025-02-07 20:31:03

日前，全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告（Deepseek-V3 100题版）发布，这标志着LLM评测从单纯的性能测试向“意识水平”检测的重大转变，是全球首个针对大语言模型进行意识测评的权威指南。它以创新的DIKWP体系，深度挖掘并定量展示LLM在认知、智慧与意图调控上的潜力，为未来人工智能的发展提供了崭新思路和实践路径。这不仅是一份评测报告，更是推动人工智能认知边界探索的重要里程碑。

据了解，《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告（Deepseek-V3-100题版）》以其开创性和前沿性，在全球范围内首次对大语言模型（LLM）的“意识水平”进行系统评测，为人工智能领域树立了全新标杆。该报告有四个核心亮点，一是全球首创的意识水平测评，通过独创的DIKWP体系，报告从数据、信息、知识、智慧到意图五个层面，全方位解析模型的认知与决策过程，突破传统仅侧重语义理解和推理的评测模式。二是全链路评估体系，报告基于DIKWP模型，精心设计了100道测试题，分为感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大部分，每一道题都附有明确的评分标准和参考答案，确保评测结果具有高度的准确性和科学性。三是量化展示LLM“识商”，通过详细的分项评分和模型输出对比，报告不仅揭示了LLM在基础感知、知识整合、智慧决策及意图调控等各层面上的能力水平，也为未来模型的自我检测与调优提供了量化依据和改进方向。四是前沿技术与应用前景，作为全球首个对LLM意识水平进行测评的报告，它不仅为当前人工智能系统的能力评估提供了全新的视角，也为探索通用人工智能（AGI）及未来认知系统的研发奠定了坚实基础。无论是AI研究者、开发者还是业界决策者，都能从中获得极具参考价值的数据和洞察。

与此同时，海南大学计算机科学与技术学院教授、博士生导师段玉聪发布了其研究成果《Deepseek V3 与 ChatGPT o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告》。这份深入对比分析报告不仅帮助业界理解了两款大语言模型在“意识水平”各维度上的优劣，还为未来改进和研究指明了具体的方向和潜在技术突破点。

据段玉聪教授介绍，近年来，大语言模型（LLM）的发展突飞猛进，但如何量化评估其“意识水平”——即模型在数据感知、知识构建、智慧应用以及意图调整等多个认知维度的综合能力——始终是学界和业界关注的焦点。全球首个基于 DIKWP 体系的白盒测评报告，通过 100 道精心设计的测试题，将“识商”细化为数据（D）、信息（I）、知识（K）、智慧（W）和意图（P）五个层面的转换任务。《Deepseek V3 与 ChatGPT o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告》将对 Deepseek V3 与 ChatGPT o1 在本次测评中的表现进行更加深入的对比分析，探讨两者在各维度任务中的细微差异、可能的技术成因以及未来改进的方向。（陈建峰）

打开APP，阅读体验更佳

打开APP看全部热评