首页 > 新闻资讯 > 营销共享 >新闻详情

快速落地基于“AIGC+数字人”的数字化内容生产--转

鼎瀛科技：2023-05-24 阅读数：4088 关键词：

文/张瑞全

编辑/LiveVideoStack

大家好，我是来自美摄科技研发中心的高级AI算法专家张瑞全。今天分享的主题是美摄科技关于快速落地基于“AIGC+数字人”的数字化内容生产的整体方案。概括

美摄科技产品主要分为AI数字人、视音频处理SDK、AI智能处理、汽车及智能硬件方案、云端/PC端视频处理方案和开发及设计服务六个部分。

美摄的技术已经在超过千余款实际产品中落地，尤其针对大量的手机厂商和大型互联网客户，面向多款超千万级的DAU应用，美摄的SDK技术对大量的硬件和系统进行适配，保障各类场景下兼容性的同时，提供高质量的服务。

实时语音数字人是基于语音和文字实时驱动的高精度数字人，主要用于数字客服、车载形象和APP助手等场景中。虚拟主播则更多的应用于新闻播报、直播助手和虚拟讲解等场景中。

数字人形象生成

数字人形象的三维渲染是数字人领域核心内容。美摄科技自研的三维图像渲染技术拥有强大的渲染能力、多端互通、高效率处理、体积小巧、快速拓展和制作方便六个特点，可以为数字人制作提供非常强大的辅助作用。

目前美摄科技支持支持基于物理的材质渲染、实时阴影处理、法向量贴图、全局环境光和屏幕空间环境光遮蔽，为各种环境下的数字人提供全面且逼真的渲染能力。为了增加可玩性和用途，可以在数字人身上添加不同的配饰等。目前美摄科技的渲染引擎可以很好地支持辅助道具和数字人动作的同步，让数字形象更加逼真。

要实现实时语音输出，就需要数字人拥有唇音同步能力。美摄科技基于AI训练建立了一套独特的唇音分析算法，可以实现自然生动的形象展现。通过对输入的语音进行轻量化AI分析，获取实际人物的面部表情，再将AI算法输出的结果与语音内容结合，驱动数字人模型，实现实时的三维唇音同步效果。美摄AI唇音同步技术具有高效、无时延、过度顺滑自然、适配多种语音系统等特点。