近期,360董事长周鸿祎谈论AI时表示:
“算力不是最关键的问题,场景和数据是关键。有知识量的数据,中文语料占了不到5%,大量知识在外文期刊里面。想要给具体行业赋能,让AI成为某一个领域的专家,就必须使用对应领域的专业数据来训练。
未来国内各个大厂都会推自己的大模型,微软、谷歌以及未来国内大厂的模型相当于一个通用模型,大而不精。想要给具体行业赋能,成为某一个领域的专家,就必须使用对应领域的专业数据来训练。”
兴业证券分析师王楠等指出,数据、算法和算力是大模型最重要的三要素。AI投资除了算力和算法,更要重视数据。
人工智能的根基是训练,只有通过大量的训练,神经网络才能总结正确的规律进行应用。训练的基础除了算力和算法,更需要海量的优质数据。
而近期BloombergGPT的横空出世,更为市场展现了根据优质垂直数据AI进行训练的大语言模型的强大之处。该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务,在执行金融任务上的表现远超过现有模型,在通用场景上的表现与现有模型也能一较高下。
因此,分析师认为,只有掌握核心行业数据,才能训练出适用于行业应用的垂直行业大模型。
分析师进一步强调,国资云掌握的海量优质数据对训练中国的垂直行业大模型意义重大:
结合近期据发改委官方批露:我国政府数据资源占全国数据资源的比重超过3/4,但开放规模不足美国的10%。个人和企业可以利用的规模更是不及美国的7%。
以“国资云+垂直领域模型”方式,可以确保敏感重点行业原始数据不出域,加速推动行业的智能化转型升级。而为了保障重点行业数据资源的安全,未来国内大模型的数据存储和运算,势必会更大程度使用自主可控的国家队算力资源。
与此同时,美国加大AI相关产业链制的裁力度背景下,大模型“国家级”平台智源研究院,与中国电子云、中国移动九天人工智能团队等两大央企集团,合作加速推进国产化大模型发展,加速自主可控国产化AI大模型发展进程,国内算力自主可控需求迫切。
因此,未来在垂直场景数据、数据安全、AI大模型自主可控需求背景下,我们认为AI投资下一步要重视“数据要素+国资云”。
总结来看,具备运营、治理政务数据、及重点行业、关键垂直领域数据的”数据要素运营商“、以及央国企背景的自主可控国资云厂商,有望迎来价值重估。
本文主要观点来自兴业证券王楠(执业:S0190520120004)等发布的报告《AI投资下一步,重视“数据要素+国资云”》,有删节