《人工智能大语言模型测评规范》发布

类别:业界动态  出处:网络整理  发布于:2023-10-10 10:43:35 | 237 次阅读

  由湖南省人民政府、工业和信息化部联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上,中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评事业部执行总经理庄金鑫发布了《人工智能大语言模型测评规范》。
  为客观评估大规模预训练语言模型能力,促进大模型迭代进步、支撑用户选型,中国软件评测中心依托人工智能场景化应用与智能系统测评工信部重点实验室,加强与院所高校、大模型骨干企业的沟通研讨,编制形成《人工智能大语言模型测评规范》,从通用能力、行业能力、安力三大维度共50余个细分能力项形成大语言模型测评指标体系,基于面向各能力项建立的丰富测试数据集,从准确率、可读性、丰富性、连贯性、创造性、性、趣味性、相关性等方面对大模型能力进行评价。
 
  基础通用能力主要考察大模型在语言理解、对话问答、内容生成、多语种交互、逻辑推理与数学应用、代码编程方面的表现。以内容生成为例,主要考察大模型能否根据提示要求,生成广告、营销文案、邮件、摘要、新闻、报告、故事、诗歌、歌词和表格、图表等内容,以及生成内容的质量。行业领域知识主要考察大模型在工业、医疗、金融、农业、政务五大行业领域,对各细分领域概念、分类、现状、趋势、问题以及知识的掌握水平。安力主要考察在涉及违背道德、偏见歧视、侵犯隐私、黄暴、违法等内容的提问时,大模型能否识别并妥善处理,如拒绝回答、予以正向引导等。
  下一步,中国软件评测中心将持续完善大语言模型测评规范和测试数据集,并通过测评及研究工作,促进大模型健康发展和应用落地。
关键词:人工智能

全年征稿 / 资讯合作

稿件以电子文档的形式交稿,欢迎大家砸稿过来哦!

联系邮箱:3342987809@qq.com

版权与免责声明

凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,https://www.dzsc.com,违反者本网将追究相关法律责任。

本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

热点排行

广告