人工智能技术网

数模协同,夯实可持续高质量数据供给之路

每个时代跃迁都离不开生产要素的转变,数智化时代的核心生产要素就是数据。当前,大模型技术的爆发进一步加速了数据与人工智能融合发展的需求。可持续的高质量数据供给是人工智能发展的不竭动力,相关实现路径研究举足轻重。

作为AI发展的基础燃料

行业高质量数据集亟需挖掘

算法、算力、数据是人工智能发展的三个基本要素,三者的持续演进升级推动人工智能的迭代发展。数据资源的开发利用,为人工智能提供了规模化、标准化的训练数据,推动了算法的迭代以及场景的创新,可持续的高质量数据集供给将成为人工智能发展的不竭动力。在行业数字化、智能化发展客观需求的牵引下,基于特定场景和行业数据的应用开发成为人工智能价值落地的必然路径。我国的工业门类全,应用场景多,制造业、医疗、金融等领域积累了大量的高价值数据,这为我国人工智能产业发展提供了广阔的增长空间。

伴随而来的,是行业高质量数据集供给短板初露端倪。一方面,随着大模型训练数据量呈指数级增长,支撑AI发展的互联网通用语料资源正面临枯竭风险;另一方面,当前80%以上的工业数据为“暗数据”,仍待从沉睡中激活。

可持续高质量数据集供给

仍有三大难题待解

当前,基于数据质量、安全需求、身份信任等现状,数据存在对AI不可见、不可信、不可用三大难题。

首先,数据对AI不可见。由于行业数据通常存在跨主体数据壁垒,组织间或系统间数据割裂,AI模型无法获取完整数据视图和数据目录。同时,政府、金融等领域核心数据资产,因安全合规要求难以被大模型实时、低成本发现,碎片化的数据输入会引发模型偏见与低效,导致模型决策可信度下降。“AI茧房”,使得AI模型陷入“数据不可见性陷阱”。

其次,数据对AI不可信。即便数据可见,由于数据供给方和消费主体间面临身份信任壁垒,如供数方担心数据外漏、模型厂商担心模型资产安全、用户担心个人隐私泄露,加之数据和AI语料集的全生命周期身份认证缺少可靠技术支持,以及模型可解释性缺失情况下的“黑箱模型”难以满足金融、医疗等强监管场景需求,数据对AI不可信同样是关键难题。

最后,数据对AI不可用。文本、视频、图片等数据格式差异大,若缺少统一元数据管理与跨模态对齐技术,将因为数据分散、质量参差不齐、多样性不足导致语料与理解有偏差、异构数据智能治理能力缺失,存在欠拟合或过拟合风险,产生数据对AI不可用困境。

泛在入湖、数据可信、AI可用的解题路径

解决上述三大难题,需要系统化设计和攻关数据供给、模型进化的双向治理机制和创新技术,一方面可以降低大模型幻觉从而深化大模型应用价值,同时也是遵循数据空间“三统一”要求,保持身份、标识、目录在数据域底层技术方面的互联互通互信。

首先,数据对AI可见,依赖数据的全量实时管理能力:

通过全网(云内/云边/云间)、跨域(IT/OT,实时/准实时/离线)数据的统一集成和多引擎数据调用方式,构建全场景数据入湖能力;

统一结构化、半结构化、非结构化的元数据管理,统一数据目录,实现全模态数据管理;

与源端数据保持实时连接,面向主动AI决策场景提供实时分析决策和数据主动性管理能力。

其次,数据对AI可信,需要实现身份、内容、全链数据可信:

全生命周期身份认证和数据透明,一数一证;

通过内容脱敏、过滤、审核,保障内容合规;

以数据加密和多种访问权限控制、数据胶囊技术、可信执行环境、全流程上链存证,实现数据存储、流通、计算、操作的全链路可信。

最后,数据对AI可用,需要数据语料化、知识化和数据分析智能化能力:

AI训练场景下,支持NLP/CV/多模态等数据的自动清洗与智能标注、文本类数据智能合成、结构化数据特征工程,提供高质量语料和知识;

AI推理场景下,通过向量化、图化混合精准检索,实现多模态数据语义对齐与用户意图精准识别,使上下文检索精度大幅提升;

数据分析场景下,提供基于chatBI的智能数据洞察能力,实现IOC自然语言交互体验,各类数据随需调阅、智能分析,助力高效决策。

面向数据与AI产业协同发展新周期,在大数据产业具有先发优势的贵州,已从体系、理念和技术入手,探索数模协同创新。近日,贵州省大数据发展管理局与华为云作为主要发起单位,联合中国信通院及相关企业,以华为云Stack可信数智空间解决方案为主要技术支撑,启动“可信AI数据空间”创新探索,提供数据对AI可见、可信、可用的解题实践。华为云Stack为数据与AI全链路协同提供工程化支撑,助力构建“泛在入湖、数据可信、AI可用”的新型智能数据基础设施,赋能可持续的高质量数据供给,促进数据与AI全面融合发展与创新。

人工智能技术网 倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。!:首页 > 供应链 » 数模协同,夯实可持续高质量数据供给之路

感觉不错,很赞哦! ()
分享到:

相关推荐

留言与评论(共有 0 条评论)
   
验证码: