您当前的位置：浙江在线 > 时政新闻 > 时政正文

国内多数模型训练使用中文数据占比超60%

字体：小中大

— 2025—

08/19

10:55:27

2025-08-19 10:55:27 来源：人民日报王云杉

　　记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。

　　在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。

版权和免责申明

凡注有"浙江在线"或电头为"浙江在线"的稿件，均为浙江在线独家版权所有，未经许可不得转载或镜像；授权转载必须注明来源为"浙江在线"，并保留"浙江在线"的电头。

标签： 数据;模型责任编辑： 吴珂珺

相关阅读

国内综合

国际新闻

精品专题

更多资讯

扫码关注
浙江在线官方微信公众号
扫码关注
浙江在线官方微博