前言
刚刚过去的春节假期,被国人大量“玩耍”的开源大模型DeepSeek,成为平民化大模型的开端。这不仅在国际掀起热浪,更让多个行业看到了低成本介入的机会。对于城市而言,两个更确定的方向也同时摆在面前,到底是堆算力,还是重应用?如何借着这股平民化大模型的浪潮,让城市发展形成更加确定的产业方向,这是一个值得深刻思考的命题。
精彩观点
国产大模型技术在语言、视觉、多模态等领域持续突破,在文本、音频、视觉、3D等数据方面实现多模态统一,持续突破人工智能感知、理解和推理世界的能力边界。
随着预训练阶段逐步完成,全球及国内大模型厂商将转向大力推进大模型的后训练及推理侧工程技术优化。未来,高性价比的大模型服务有望增加。
我们要用好大模型的基本能力、创意能力、多模态能力、业务能力、创新能力和科学能力,并将其与我国产业创新应用场景充分结合,最终赋能百行千业。
DeepSeek是否意味着“算力不再重要”
DeepSeek的一大特点,就是成本更低,用户可以用更小的代价,换取更大的实际效果。根据《羊城晚报》的报道,DeepSeek被业界称为开创性地实现了“轻量化知识蒸馏”技术。这就意味着,相当于将千亿参数大模型的智能压缩到移动端可承载的小体积,类似于让2G网络用户也能使用AI服务。
那么,这是否意味着,通过堆算力的方式发展人工智能,这条路并不可行?复旦大学计算机学院副教授、博士生导师郑骁庆认为,AI模型仍需要一定的硬件基础来支持大规模训练和推理。根据媒体报道,在3~5年内,大模型训练成本降低会推动更多参与者和应用场景出现,GPU需求仍将维持高增长,尤其是高性能计算(HPC)领域;在5~10年内,随着专用芯片成熟和算法效率提升,GPU在训练市场的份额可能被部分侵蚀,但其在推理、边缘计算和通用计算领域的优势仍将支撑需求。
换句话说,开源的DeepSeek并没有让算力需求减少,反而因为衍生应用的大量出现,放大了算力的需求,但这种需求更加具体,最终影响取决于技术、成本、生态三者的博弈。也就是说,过去堆算力谋发展,可能会转变为重应用谋发展。
多平台上线DeepSeek 应用细分趋势明显
据《中国基金报》报道,近日,百度智能云、华为云、阿里云、腾讯云、360数字安全、云轴科技等多个平台宣布上线DeepSeek大模型。多家海外科技厂商近日也陆续宣布接入DeepSeek模型,包括亚马逊AWS、微软Azure、英伟达等。
事实上,这不仅是开源之后的结果,更是人工智能应用细分的现实需求。国家互联网信息办公室2025年1月8日发布的信息显示,截至2024年12月31日,共302款生成式人工智能服务在国家网信办完成备案,其中2024年新增238款备案。
根据人民网报道,日前,在福建省福州市鼓楼区安泰街道南门兜地铁站里举行的2025年就业援助月专项活动中,工作人员利用AI技术和大数据分析等先进技术,为求职者提供智能化的岗位匹配和职业规划建议。
中国信通院政策与经济研究所主任工程师程莹认为,国产大模型技术在语言、视觉、多模态等领域持续突破,在文本、音频、视觉、3D等数据方面实现多模态统一,持续突破人工智能感知、理解和推理世界的能力边界。有媒体报道,在撒哈拉以南地区,DeepSeek的医学影像诊断模块准确率已达三甲医院主治医师水平,为医疗资源匮乏地区提供了帮助。
中国信通院人工智能研究所软硬件与生态部主任李论认为:“随着预训练阶段逐步完成,全球及国内大模型厂商将转向大力推进大模型的后训练及推理侧工程技术优化。未来,高性价比的大模型服务有望增加。”
用好大模型 赋能百行千业
360集团创始人周鸿祎说:“我们要用好大模型的基本能力、创意能力、多模态能力、业务能力、创新能力和科学能力,并将其与我国产业创新应用场景充分结合,最终赋能百行千业。”
数据的数量决定大模型的广度,数据的质量决定大模型的精度。在实践中,不少企业正通过让大模型“边干边学”实现良性循环。专家预计,“边干边学、边学边用”的良性循环将会让国产大模型加速走进日常生活。
简单总结,精细化的大模型应用,不仅可以帮助人们搜索、绘图、制作PPT、润色文章,更可以帮助学生批改作文,帮助企业制定物流规划,助力城市交通组织升级,动态调整交通红绿灯的配时,帮助医生给出诊断建议,为游客提供高效的旅行规划,制定下一个供热期的热源分配方案。而这一切都需要在细分应用、投喂数据、算力支撑的基础上完成,真正做到赋能百行企业。
换句话说,银川的人工智能发展,除了算力的基础投入,更要提前做好大模型应用的规划,在重点领域突出重点应用,大力支持民营企业的技术创新,向民营企业开放相关数据,加大商业化大模型应用落地的支持力度,为大模型应用创新团队和人才提供发展平台,为建立大模型应用生态做好充分的准备。
本报记者 皇甫世俊整理