科技领域高质量数据集发布 夯实主流价值语料底座

人民网北京5月10日电 (记者夏晓伦)国产大模型跑得快,更要跑得“正”。当前,人工智能训练中最“卡脖子”的环节之一,不是算力,而是高质量专业化、合规化的语料数据

这一短板正在被补齐。在2026人民网数据智能伙伴会活动上,主流价值语料生态联盟正式启动,参与方钛媒体发布了科技领域高质量数据集,以垂直领域权威、专业的语料资源,为AI大模型训练注入“精神底座”的力量

作为聚焦科技商业领域的媒体,钛媒体此次面向联盟开放科技领域高质量数据集及全链路技术支撑能力,为语料生态建设注入垂直领域的核心动能

钛媒体执行总编辑首席运营官马金男介绍,这一数据集精准聚焦TMT(科技、媒体、通信)垂直赛道,直击当前AI训练中科技语料专业性不足、时效性不强、版权边界模糊等痛点,成为主流价值语料生态联盟推动垂直领域语料标准化、规模化供给的标志性探索。

这批数据集究竟具备怎样的特质?据介绍,它构建了图文视频双核心的多模态语料体系,兼具权威性、专业性、时效性与合规性。图文语料库汇聚海量科技报道、行业研报与专业评论,内容语言精准规范、标签体系完整,富含TMT领域专业术语与结构化元数据,可完美适配中文科技商业垂直领域的语义训练需求。视频语料资源则囊括T-EDGE全球创新大会数字价值峰会等独家行业活动实录,以及多位企业家深度访谈内容,配套高精度转录文本与多模态标注,能够直接服务于语音识别、跨模态模型训练等核心场景全部内容均经过专业编辑审核,版权清晰可授权,更新频次高且紧跟数字经济前沿动态,免费用于科技领域高质量数据集建设,并面向联盟成员开放素材共享。

同时,这些语料可广泛应用于大模型训练与价值对齐、产业政策研究、舆情监测预警、知识图谱构建、科技成果转化分析等多元领域。

对于这一成果中国人民大学新闻学院广告传媒经济系主任教授博士生导师王树良给出了点评。他认为,在主流价值语料库与科技语料库的共建工作中,钛媒体所提供的科技语料,能够覆盖人工智能大模型训练、产业趋势研判等核心应用场景。基于其在科技领域的长期积累,这些语料可为数字经济发展、AI产业创新及科技治理现代化提供基础数据支持,其建立的质量把控机制与实践优化思路,也能为同类语料的标准化建设提供借鉴。

据了解,在人民日报社指导下,人民网发起建立了主流价值语料生态联盟,旨在搭建一个“共建共享、互利共赢”的开放协作平台,成为连接政、产、学、研各界的纽带,通过机制创新提升主流价值语料从供给、处理到应用,从标准、规则研讨到达成共识效率提升。

  来源:人民网

商业头条网www.sycn.cn发布的内容,凡是注明其它来源的均转载自其它平台,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,商业头条网仅提供信息存储空间服务。
分享到

商业头条网www.sycn.cn

商业头条网是专注于商业领域的综合性资讯平台,致力于为商务人士、投资者及行业从业者提供实时、权威、深度的商业资讯与分析。
通过整合全球商业动态、行业趋势及专业洞察,助力用户抢占先机,赋能商业决策。

关于我们联系我们