DeepSeek + 通义万相高效制作AI视频实战详解

小码农叔叔 2025-03-24 10:10:26编程技术
607

随着人工智能技术的飞速发展,AI视频制作正逐渐成为内容创作的新趋势。DeepSeek 和 通义万相 作为两大领先的AI平台,凭借其强大的图像生成和视频编辑能力,为创作者提供了前所未有的便利。本文将详细介绍如何利用 DeepSeek 和 通义万相 高效制作AI视频,从前期准备到后期编辑,一步步带你掌握AI视频制作的实战技巧。

一、前言

AI大模型技术的火爆,让AI视频赛道也变得热闹。以往让很多人觉得视频制作领域是一个很难跨越的障碍,AI大模型的兴起之后,同时也带动了AI视频技术的革新,不少厂商纷纷加入AI视频的争夺,毕竟短视频经历了多年的沉淀之后,已经成为大多数日常生活中不可或缺的一部分,本文以国产大模型之光的通义万相为例进行详细的说明。

二、AI视频概述

2.1 什么是AI视频

AI视频 是指利用人工智能(AI)技术生成、编辑、增强或分析视频内容的过程和结果。通过AI技术,视频制作、处理和优化的效率得到了显著提升,同时也为创意表达和内容创作带来了更多可能性。AI视频的核心在于利用机器学习、计算机视觉、自然语言处理等技术,自动化或智能化地完成视频相关的任务。

DeepSeek + 通义万相高效制作AI视频实战详解

2.2 AI视频核心特点

AI 视频的核心特点主要体现在以下几个方面,这些特点使得 AI 技术在视频领域的应用更加高效、智能和创新:

  • 自动化处理

    • 自动剪辑视频片段。

    • 自动生成字幕和配音。

    • 自动识别并分类视频内容。

    • AI 可以自动完成视频制作、编辑和处理中的许多任务,减少人工干预。例如:

  • 智能化

    • 识别视频中的物体、场景、人脸和动作。

    • 分析视频的情感基调(如欢乐、悲伤、紧张等)。

    • 根据用户偏好推荐个性化视频内容。

    • AI 能够理解视频内容并做出智能决策。例如:

  • 制作高效

    • 快速生成高质量视频内容。

    • 批量处理视频数据(如转码、压缩、增强等)。

    • 实时处理视频流(如直播中的实时字幕或特效)。

    • AI 技术可以大幅提升视频处理的效率,节省时间和成本。例如:

  • 具备一定的创新

    • 生成虚拟角色或深度伪造(Deepfake)视频。

    • 创建逼真的特效和动画。

    • 将文本或图像转化为动态视频。

    • AI 为视频创作带来了全新的可能性,突破了传统技术的限制。例如:

  • 支持个性化

    • 为不同用户生成个性化的广告视频。

    • 根据用户兴趣推荐相关视频内容。

    • 生成符合特定风格或主题的视频。

    • AI 可以根据用户的需求和偏好生成定制化的视频内容。例如:

  • 生成的视频质量较高

    • 增强视频分辨率(如将低清视频转为高清)。

    • 修复老旧或损坏的视频。

    • 自动调整视频的色彩、光线和稳定性。

    • AI 技术可以提升视频的质量和观感。例如:

AI 视频的核心特点是自动化、智能化、高效性、创新性、个性化、高质量、实时性和数据驱动。这些特点使得 AI 技术在视频领域的应用越来越广泛,从内容创作到分发和消费,AI 正在彻底改变视频行业的面貌。

2.3 AI视频应用场景

AI视频技术在多个领域展现出广泛的应用场景,涵盖了从娱乐、教育到商业营销等多个方面。以下是AI视频的主要应用场景及其具体表现:

  • 娱乐与社交媒体

    • 普通用户可以通过AI工具快速生成趣味视频,用于分享、娱乐或发布自媒体。例如,生成梦幻朋友圈配图或节日主题视频

    • AI可以生成炫酷的动态封面或个性化视频,帮助社交媒体用户吸引更多关注。例如,美食博主可以生成食材飞舞的视频封面,旅行博主可以生成地标建筑的切换视频。

    • 动态封面与个性化内容:

    • 趣味视频生成:

  • 内容创作与影视创作

    • AI可以自动识别视频中的关键情节,进行智能剪辑和优化,提升制作效率。

    • AI技术可以生成逼真的虚拟场景和特效,减少实景搭建和后期制作成本。例如,利用生成对抗网络(GAN)生成动态粒子效果或深度场景合成。

    • AI可以根据文字描述生成视频脚本,并初步生成视频片段,帮助创作者优化脚本和场景设计。

    • 剧本生成与可视化:

    • 特效与场景生成:

    • 智能剪辑与后期处理:

  • 电商与广告营销

    • 通过分析用户行为和视频内容,AI可以自动植入相关广告,提升广告效果。

    • AI可以生成高质量的产品展示视频,例如化妆品涂抹效果或电子产品3D拆解图,提升消费者的购买欲望。

    • 产品展示与广告生成:

    • 个性化广告投放:

  • 教育与科普

    • 通过AI生成科普动画,将复杂知识以趣味化的方式呈现,提高传播效率。

    • AI可以生成历史、科学等学科的生动教学视频,例如古代战争场景或细胞结构动画,提升学生的学习兴趣。

    • 生动教学视频:

    • 科普动画制作:

  • 短剧与影视创作

    • 尽管AI短剧在情感共鸣上仍有不足,但通过人机协同创作,可以逐步提升叙事张力和情感表现。

    • AI技术已渗透到短剧制作的多个环节,包括剧本生成、场景搭建、特效制作和智能剪辑,大幅压缩制作周期和成本。

    • AI短剧制作:

    • 情感与叙事优化:

  • 其他创新应用

    • 在直播或视频会议中,AI可以实时生成字幕、翻译或虚拟背景,提升互动体验。

    • AI可以生成虚拟主播或角色,用于直播、新闻播报等场景,目前已经在一些平台开始投入使用,比如AI数字人等。

    • 虚拟主播与角色生成:

    • 实时视频处理:

AI视频的应用场景极为广泛,从娱乐、教育到商业营销,AI技术正在改变视频创作、分发和消费的方式。未来,随着技术的不断进步,AI视频将在更多领域展现出更大的潜力。

三、通义万相介绍

3.1 通义万相概述

3.1.1 什么是通义万相

通义万相 是阿里云推出的一款AI多模态内容生成平台,专注于图像和视频的智能化创作。它基于阿里云通义大模型家族,旨在通过先进的人工智能技术,为用户提供高效、创新的视觉内容生成解决方案。

网页端入口:通义万相_AI创意作画_AI绘画_人工智能-阿里云

DeepSeek + 通义万相高效制作AI视频实战详解

 

3.2 通义万相核心特点

通义万相具备多种强大的AI生成能力,主要包括:

  • 文本生成图像:

    • 根据用户输入的文字描述,生成符合需求的图像,支持多种艺术风格(如水彩、油画、3D卡通等。

  • 图像风格迁移:

    • 用户上传原图和风格图后,AI可以将原图处理为指定风格,实现创意转化。

  • 视频生成:

    • 支持文生视频和图生视频任务,能够生成影视级高清视频,并优化中式元素的表现,特别适合中国风内容的创作。

  • 相似图像生成:

    • 上传任意图片后,AI可以生成内容或风格相似的画作,适合创意发散

  • 复杂运动生成:

    • 能够模拟真实世界的物理规律,生成复杂和大幅度的运动场景,提升视频的真实感

3.3 通义万相技术特点

通义万相技术具备如下优势和特点:

  • 基于阿里通义大模型:

    • 依托阿里巴巴 通义大模型(Tongyi Large Model),结合 扩散模型(Diffusion Model) 和 Transformer 架构 进行高质量图像生成。

  • 多模态支持:

    • 通义万相不仅支持图像生成,还具备视频生成能力,实现了多模态内容的智能化创作。

  • 高度可控性:

    • 基于阿里云研发的组合式生成模型Composer,通义万相能够对配色、布局、风格等设计元素进行精细拆解与智能重组,提供高度可控的图像生成效果。

  • 中文优化:

    • 原生支持中文长文本提示词,能够精准理解并生成符合中国文化和审美的内容,被称为“最懂中国风”的视频大模型。

  • 开源支持:

    • 通义万相2.1模型已全面开源,开发者可以通过Github、HuggingFace等平台获取推理代码和权重,支持文生视频和图生视频任务。

通义万相技术优势在于其多模态生成能力、中文优化、高质量输出、高度可控性、技术创新、广泛的应用场景以及开源支持。这些优势使其成为国内AIGC领域的领先平台,为创作者和企业提供了强大的AI赋能工具。未来,随着技术的进一步迭代,通义万相有望在更多领域展现更大的价值。

3.4 通义万相应用场景

通义万相作为阿里云推出的AI多模态内容生成平台,凭借其强大的图像和视频生成能力,在多个领域展现了广泛的应用场景。以下是通义万相的主要应用场景及其具体表现:

  • 艺术创作

    • 个性化艺术生成:用户可以通过简单的指令生成独特的艺术作品,满足个人或商业需求。

    • 风格迁移:将现有图像转化为指定风格,实现创意转化。

    • 通义万相为艺术家和设计师提供了强大的创意支持,能够根据用户输入的提示词或描述生成个性化的艺术作品。其支持多种艺术风格(如水彩、油画、3D卡通等),帮助创作者探索新的艺术表现形式

  • 广告与营销

    • 广告素材生成:生成商品海报、广告图和创意视频,提升营销效率。

    • 个性化广告投放:根据用户数据生成定制化广告内容,提高广告投放的精准性。

    • 通义万相在广告制作和营销领域展现了强大的应用潜力,能够快速生成高质量的视频和图像内容,提升广告的吸引力和效果

  • 影视与游戏开发

    • 影视特效生成:生成逼真的特效和背景,提升影视作品的视觉效果。

    • 游戏场景与角色设计:生成游戏角色、场景和动画,加速游戏开发进程。

    • 通义万相在影视和游戏开发中发挥了重要作用,能够生成特效、场景预览和角色概念设计,大幅缩短制作周期

  • 社交媒体平台内容创作

    • 短视频生成:生成个性化的短视频内容,吸引粉丝和提高互动。

    • 动态封面设计:生成炫酷的动态封面,提升社交媒体内容的吸引力。

    • 通义万相为社交媒体用户和内容创作者提供了强大的工具,能够生成吸引眼球的短视频和动态封面,增强用户互动性

  • 商业设计与展示

    • 产品展示视频:生成商品展示视频,提升消费者的购买欲望。

    • 虚拟店铺装修:生成虚拟店铺装修预览视频,帮助商家展示店铺布局和产品陈列。

    • 通义万相在商业设计和展示中展现了强大的应用潜力,能够生成高质量的设计素材和展示视频

四、DeepSeek + 通义万相制作AI视频流程

4.1 DeepSeek + 通义万相制作视频优势

4.1.1 DeepSeek 优势

Deepseek 生成的内容具有较高的专业性和深度,能够满足不同领域的需求。同时其深度思考能力和联网搜索能力,能够为用户生成最新,且内容丰富程度较高。在使用AI视频生成的场景中,制作视频需要视频脚本,分镜头文案等元素信息,借助Deepseek 强大的对话和深度思考能力,可以生成高质量的视频脚本,然后配合AI视频制作平台的能力,即可快速完成视频的制作。deepseek入口:DeepSeek

DeepSeek + 通义万相高效制作AI视频实战详解

4.1.2 通义万相视频生成优势

通义万相作为阿里云推出的AI多模态内容生成平台,在视频生成领域展现了显著的技术优势和应用潜力。以下是通义万相在视频生成方面的主要优势:

  • 高质量视频生成

    • 通义万相能够生成影视级高清视频,支持1080P分辨率,画面质感细腻,视觉效果出色。其生成的视频在动态场景中表现出极高的流畅度和真实感,适合广告、影视、游戏等多个领域的需求

  • 中文优化与本土化支持

    • 通义万相在中文视频生成方面具有显著优势,能够精准理解中文长文本提示词,并生成符合中国文化和审美的视频内容。例如,用户输入“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来”的指令,通义万相可以生成具有浓郁东方韵味的视频。

  • 复杂运动与物理规律模拟

    • 通义万相通过自研的高效VAE(变分自编码器)和DiT(图像生成对抗网络)架构,增强了时空上下文建模能力,能够精准模拟复杂运动和真实物理规律。例如,雨滴落在伞上会溅起水花,玻璃杯摔碎时碎片飞溅等场景都能逼真呈现。

  • 多模态生成能力

    • 通义万相支持文生视频图生视频两种生成模式。用户可以通过输入文本描述或上传图片,快速生成高质量视频内容。这种多模态能力使其在广告设计、短视频创作等领域具有广泛的应用价值。

  • 丰富的视觉效果与特效

    • 通义万相提供了多种视频特效选项,如过渡效果、粒子效果、模拟效果等,用户可以根据需求自由组合,增强视频的表现力和艺术感。例如,一键生成艺术字功能,支持中英文文字特效生成,极大提升了视频的视觉吸引力。

  • 使用简单创作效率高

    • 通义万相通过简洁的操作界面和强大的AI技术支持,大幅降低了视频创作的门槛。即使是普通用户,也能通过简单的指令快速生成高质量视频内容,显著提升了创作效率。

  • 开源与生态支持

    • 通义万相2.1模型已全面开源,开发者可以通过Github、HuggingFace等平台获取推理代码和权重,支持文生视频和图生视频任务。这种开源策略不仅降低了技术使用门槛,还促进了AI社区的协作与创新。

 

4.2 操作过程

接下来通过实际案例演示如何使用DeepSeek + 通义万相生成视频

4.2.1 使用DeepSeek 生成视频脚本

提供如下的文案,即我们接下来我们需要让DeepSeek 生成视频的原始需求

我想做一个治愈系的名山大川的短视频,视频中的元素包括蔚蓝的天空,广阔的山河湖泊,飞鸟,无人机拍摄视角以及特写镜头,以国家地理纪录片的风格,时长30秒

打开deepseek,发出上述指令,稍等一会儿,deepseek便给出了完整的解析和思考过程,比如制作视频的注意点,建议点,优化点等

DeepSeek + 通义万相高效制作AI视频实战详解

DeepSeek + 通义万相高效制作AI视频实战详解

基于上一步的回答,我们进一步输入指令要求DeepSeek 生成分镜头脚本

DeepSeek + 通义万相高效制作AI视频实战详解

DeepSeek + 通义万相高效制作AI视频实战详解

通过上面的2步指令输入,就得到了接下来用于生成视频的原始分镜脚本,当然,如果第一次生成的脚本不满意,还可以通过多轮对话的方式进行微调,直到得到满意的脚本为止。

4.2.2 使用通义万相生成视频

进入通义万相之后,找到左侧的视频生成的菜单,拷贝上一步的分镜脚本到输入框中,它会自动将markdown格式的文案进行解析出来,在当前的操作窗口页面,里面还有一些参数可以调整,比如视频比例,可以结合实际需求进行选择,像3:4在一些自媒体平台比较流行,参数部分可自行尝试。

将脚本复制进去之后,点击生成视频按钮,生成视频的时长会根据你的实际分镜不同而有差异。

DeepSeek + 通义万相高效制作AI视频实战详解

等待一段时间之后,在右侧就可以看到生成好的视频了。

DeepSeek + 通义万相高效制作AI视频实战详解

可以直接打开查看视频的效果,也可以下载到本地

DeepSeek + 通义万相高效制作AI视频实战详解

通过上面的操作流程,就完成了一个从生成视频的分镜脚本到制作出视频的完整过程,事实上,这也是很多自媒体创作者利用AI大模型完成AI视频制作的基本操作流程,只不过其中的细节还需要进一步的完善和优化,比如分镜脚本的优化,视频参数的调整,视频导入到其他剪辑工具的调色、剪辑、后期制作等。

四、通义万相其他功能体验

在通义万相的操作界面上还有不少好用的功能可以体验,下面再选取两个高频的场景进行演示操作。

4.1 图生视频

简而言之,即根据你上传的图片生成视频

DeepSeek + 通义万相高效制作AI视频实战详解

比如以官方提供的图片为例进行视频生成,选择一张

DeepSeek + 通义万相高效制作AI视频实战详解

点击生成视频,通义万相会自动解析图片中的元素内容,生成一段类似于视频脚本的描述文案,然后等待视频生成即可,最后可以看到,这是一段一个类似飞碟的飞行物在低空飞行的视频

DeepSeek + 通义万相高效制作AI视频实战详解

4.2 文字作画

即文生图的功能,这个在AI大模型出来不久,很多大模型都开始在这个领域探索,截止到现在,这一技术逐渐成熟,对用使用者来说,只需要提供你的文案描述,文案尽可能的覆盖到待生成的图片元素,这样生成的图效果才好,有点考验一个人的文字功底,如下我们在框里输入一段内容

生成一张猫和狗快乐玩耍的温馨图片,图中小猫伸出爪子去挠小狗的头,旁边有草坪,有几只蝴蝶,有盛开的花朵,蓝色的天空,风格为写实风格

输入进去然后点击生成,稍等一会,即可生成默认的4张图片

DeepSeek + 通义万相高效制作AI视频实战详解

4.3 Java API 调用

通义万相也提供了API对接方式,可以在应用程序中进行集成和使用

DeepSeek + 通义万相高效制作AI视频实战详解

以左侧的视频生成API为例进行说明,点击之后,跳转到下面的对接文档页面

DeepSeek + 通义万相高效制作AI视频实战详解

以Java对接为例进行说明,参考下面的步骤。

4.3.1 导入依赖SDK

在你的springboot工程 pom文件中添加如下依赖

  • 需要用比较新的版本,否则可能还没有包含视频生成相关的API能力

<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>dashscope-sdk-java</artifactId>
    <!-- 请将 'the-latest-version' 替换为最新版本号:https://mvnrepository.com/artifact/com.alibaba/dashscope-sdk-java -->
    <version>t2.18.2</version>
</dependency>

4.3.2 获取apikey

登录阿里云的百炼大平台,注册账号后创建一个apikey即可,入口:阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台

DeepSeek + 通义万相高效制作AI视频实战详解

4.3.3 代码集成

参考下面的代码

  • 只需要将里面的代码中的apkey替换成你自己的即可

package com.congge.chat;

// Copyright (c) Alibaba, Inc. and its affiliates.

// dashscope sdk >= 2.18.2
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesis;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisParam;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisResult;
import com.alibaba.dashscope.exception.ApiException;
import com.alibaba.dashscope.exception.InputRequiredException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.utils.JsonUtils;

public class Text2Video {
    /**
     * Create a video compositing task and wait for the task to complete.
     */
    public static void text2Video() throws ApiException, NoApiKeyException, InputRequiredException {
        VideoSynthesis vs = new VideoSynthesis();
        VideoSynthesisParam param =
                VideoSynthesisParam.builder()
                        .model("wanx2.1-t2v-turbo")
                        .apiKey("你的apikey")
                        .prompt("一只小猫在月光下奔跑")
                        .size("1280*720")
                        .build();
        System.out.println("please wait...");
        VideoSynthesisResult result = vs.call(param);
        System.out.println(JsonUtils.toJson(result));
    }

    public static void main(String[] args) {
        try {
            text2Video();
        } catch (ApiException | NoApiKeyException | InputRequiredException e) {
            System.out.println(e.getMessage());
        }
        System.exit(0);
    }
}

运行上面的代码,控制台的输出结果中即包含了生成的视频链接

DeepSeek + 通义万相高效制作AI视频实战详解

在浏览器中打开链接自动下载到本地,然后即可播放查看效果

DeepSeek + 通义万相高效制作AI视频实战详解

通义万相主页还提供了很多其他有意思的功能,这里就不再一一列举了,感兴趣的同学可以继续研究。

五、写在文末

本文详细介绍了通义万相这款AI工具的使用,并使用DeepSeek+通义万相完成了一个视频制作的完整过程,最后介绍了如何在代码中进行集成的过程,本篇到此结束,感谢观看。

通过本文的学习,我们成功地利用 DeepSeek 和 通义万相 高效制作了一段AI视频。我们介绍了两大平台的基本操作和核心功能,逐步完成了视频素材的生成、编辑和合成,并进行了简单的优化和发布。这个实战项目不仅展示了 DeepSeek 和 通义万相 的强大功能,还帮助读者掌握了AI视频制作的基本流程和技巧。希望本文能为你的视频创作之旅提供有价值的参考和灵感,激发你探索更多AI视频制作的可能性。

DeepSeek 通义万相 AI视频
THE END
蜜芽
故事不长,也不难讲,四字概括,毫无意义。

相关推荐

Gen-CLI:基于DeepSeek的AI命令行编程工具,谷歌Gemini-CLI平替方案
Gen-CLI是一个开源的命令行编程工具,旨在为国内开发者提供类似于谷歌Gemini-CLI的AI辅助编程体验。该项目基于开源的Gemini-CLI进行改造,通过调用硅基流动(SiliconCloud)平台...
2025-07-09 新闻资讯
838

PreenCut:一款基于大语言模型(LLM)的开源AI视频剪辑工具
PreenCut 是一款基于大语言模型(LLM)的开源视频剪辑工具,旨在通过AI技术彻底革新传统视频剪辑中素材处理效率低下、语义关联识别困难的痛点。与传统剪辑软件依赖时间轴手动操...
2025-07-08 新闻资讯
546

VideoLingo:开源全自动视频翻译工具,一站式AI视频本地化神器
VideoLingo 是是一款开源的全自动视频翻译与本地化工具,旨在通过人工智能技术解决跨语言视频内容传播的障碍。它集成了语音识别、大语言模型翻译、字幕优化和文本转语音(TTS...
2025-07-03 新闻资讯
545

FlowDirector:西湖大学AGI实验室开源的一款无需训练的视频编辑框架
FlowDirector是西湖大学AGI实验室开发的一款无需训练的视频编辑框架,它基于"流匹配"(Flow Matching)范式,能够将任意基于流的视频生成模型改造成有效的视频编辑工具,而无需...
2025-06-26 新闻资讯
452

OmniAvatar:阿里巴巴开源的一款音频驱动全身视频生成模型
OmniAvatar是由阿里巴巴夸克团队开源的一款音频驱动全身视频生成模型,旨在解决现有虚拟人技术中动作生硬、口型同步精度不足、缺乏全身自然交互等问题。该项目通过结合多层次...
2025-06-26 新闻资讯
741

EX-4D:字节跳动开源的单目到自由视角4D视频生成框架
EX-4D是由字节跳动旗下PICO-MR团队开发的突破性4D视频生成技术,它能够从任意单目(单视角)视频生成对应新视角的高质量视频序列,实现了从2D到4D(3D空间+时间维度)的跨越式...
2025-06-23 新闻资讯
549