中国网络空间安全协会发布中文互联网语料资源平台
近日,中国网络空间安全协会在1月9日发布公告,正式面向社会推出中文互联网语料资源平台。该平台支持多种标签分类,包括行业领域、模态和体量规模等,方便用户下载与使用。这一举措是在中央网信办的指导下,由中国网络空间安全协会联合国家互联网应急中心共同完成。
中文互联网基础语料2.0版本发布
基于前期发布的中文互联网基础语料1.0,此次发布的中文互联网基础语料2.0汇聚了大量高质量可信数据。经过严格的信源筛选、过滤和数据去重处理,最终形成了120GB的数据量,包含3800万条记录。这些数据不仅丰富了语料库的,还为相关研究提供了坚实的基础。
平台入驻多个优质语料数据集
目前,中文互联网语料资源平台已入驻27个语料数据集,总数据量约为2.7TB。这些数据集主要分为三类:一是由中国网络空间安全协会和国家互联网应急中心建设的中文互联网基础语料;二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。
用户如何获取语料资源
用户可以通过访问中国网络空间安全协会官方网站(https://www.cybersac.cn/newhome),点击“中文互联网语料资源平台”链接,按照注册、认证等流程,轻松下载所需的语料资源。这一平台为研究人员和技术开发者提供了便捷的途径,促进了中文互联网语料的广泛应用。
数据对人工智能发展的重要性
网安协会人工智能安全治理专委会负责人表示,数据是推动人工智能发展的关键资源。中文互联网基础语料2.0作为各界协同共建的重要成果,不仅提升了中文语料的质量,还将为人工智能技术创新和产业发展提供有力支撑。未来,专委会将继续加强中文互联网基础语料的建设,助力行业发展。
本文来源: