AI视频领域又一次科技地震了!智谱AI宣布AI视频领域正式进入“有声时代”,既能生成4K分辨率视频还能自带AI音效,现在只用一张照片就能拍大片了,各种创意都可以实现。
智谱AI迎来全面升级推出新轻影,发布最新版视频模型CogVideoX v1.5,此版本突破性地实现了对10秒时长、4K分辨率、60帧速率视频的支持。
升级后的清影在复杂提示词理解等方面的能力得到提升,同时支持任意比例图像生成视频,可以一次性生成4个视频。

智谱也同步发布了音效模型CogSound,可以生成与画面匹配的音效,音效功能将在本月上线公测。
这次智谱AI标志着AI视频技术迈入有声时代的一大步。这一功能不仅丰富了视频表现力,还极大地削减了视频制作的成本,因为各类场景下的音效均可由AI即时生成。

这次智谱AI还慷慨地将新轻影背后的核心技术——CogVideoX v1.5模型进行了开源。
CogVideoX v1.5开源地址:
https://github.com/thudm/cogvideo
现在,新清影已在智谱APP和智谱清言网页中面向公众开放,使得每个人都能轻松体验其强大功能。
智谱清言网页使用地址:
https://chatglm.cn/video
下面来看下新清言图生视频做出的4K、60帧的视频:
提示词:画面中的女生举起灯笼,转头看灯笼,眨眼
画质只是一方面,在视频美学、动态幅度、模拟物理动作连贯性上都有非常出色的表现。
比如这个小猫画面,它几乎完美的模拟了水的运动,以及人物情绪也能像专业的演员一样表演出来。
那新清言的CogVideoX+CogSound音效配音,生成的视频如何呢?
新清言生成的AI视频,加入音效模型 CogSound能够根据视频自动生成音效、节奏等音乐元素,是不是立马感觉就不一样了。
基于GLM-4V的强大视频理解能力,CogSound 能够准确识别并理解视频背后的语义和情感,并为无声视频添加与之相匹配的音频内容,甚至可以生成更加复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。
CogSound 实现了更高效的音频合成过程、以及音频与视频在语义层面的高度一致性,具有更好的连贯性和平滑过渡。
无声电影秒变有声音效,功能本月就会上线,其效果我觉得不管是做短视频素材还是AI电影短片或是商业广告都完全够用了。
这一举措预示着,短视频创作领域或将迎来一场深刻变革,内容生产的门槛将被大幅降低,不再局限于专业人士。普通用户借助这些直观易用的AI工具,也能轻松地将自己的创意和想法转化为生动有趣的视频作品。
智谱AI表示,真正的智能一定是多模态的,因此希望智谱多模态大模型家族能进一步提高大模型的应用和工具能力,基于更丰富的视觉内容产出更好的AI生成视频工具。
评论(0)