🎙 口播博主内测招募中 — 免费使用,欢迎反馈

一条原始视频
自动变成可发布成片

上传口播视频,AI 自动完成字幕转写、品牌包装、BGM 混音、CTA 设计和宣发素材——省去 80% 后期时间

不限类型,竖屏横屏都支持。你的每一条建议都会让 Echo 变得更好。

四步出片,全程自动

从原始素材到发布级成片,无需任何剪辑技能

上传原始视频
AI 语音转写
品牌包装烧录
成片 + 宣发素材

核心能力

专为个人 IP 和中小品牌打造的 AI 视频编辑工具

🎯

精准 AI 视频字幕

MLX Whisper 高精度语音转写,支持专业术语词表,字幕逐字同步,中文识别准确率超过 95%

🎨

品牌一致性包装

自定义品牌胶囊、配色、封面模板,每条视频自动套用你的品牌视觉,省去重复设计

🎵

BGM 智能混音

20+ 首版权安全乐器独奏,智能音量匹配不压人声,让口播视频更有质感

✂️

口水词自动切除

AI 智能识别"嗯""啊""那个"等填充词,物理切除让口播表达更流畅专业

📝

宣发素材包生成

自动生成 4 组不同风格的标题、文案、话题标签,适配抖音、小红书等平台一键分发

📰

公众号文章改写

视频转写自动改写为结构化长文,适配微信公众号排版,一条视频产出多种内容形态

创作者们的真实反馈

来自内测用户的使用感受

小李老师教育博主 · 10w 粉
录了 3 分钟口播,字幕完全对上了,BGM 也加得很自然。以前这些至少半小时,现在几分钟搞定。
⭐⭐⭐⭐⭐
王总商业教练 · 连续创业者
品牌胶囊颜色换了下,瞬间有了自己的风格。每条视频出来都带我的品牌标识,很专业。
⭐⭐⭐⭐⭐
陈小鱼旅行达人 · 自由职业
竖屏视频效果特别好,直接发抖音了。横屏 vlog 也能自动适配,省了很多调整时间。
⭐⭐⭐⭐⭐
张导短视频导演 · MCN
口水词切除功能太实用了,"嗯""那个"全部干掉,出来的视频听着特别流畅。
⭐⭐⭐⭐⭐
林姐母婴博主 · 视频号
自动生成的抖音标题和小红书文案质量不错,基本改几个字就能直接用,太省事了。
⭐⭐⭐⭐⭐
小李老师教育博主 · 10w 粉
录了 3 分钟口播,字幕完全对上了,BGM 也加得很自然。以前这些至少半小时,现在几分钟搞定。
⭐⭐⭐⭐⭐
王总商业教练 · 连续创业者
品牌胶囊颜色换了下,瞬间有了自己的风格。每条视频出来都带我的品牌标识,很专业。
⭐⭐⭐⭐⭐
陈小鱼旅行达人 · 自由职业
竖屏视频效果特别好,直接发抖音了。横屏 vlog 也能自动适配,省了很多调整时间。
⭐⭐⭐⭐⭐
张导短视频导演 · MCN
口水词切除功能太实用了,"嗯""那个"全部干掉,出来的视频听着特别流畅。
⭐⭐⭐⭐⭐
林姐母婴博主 · 视频号
自动生成的抖音标题和小红书文案质量不错,基本改几个字就能直接用,太省事了。
⭐⭐⭐⭐⭐
赵哥健身教练 · 抖音创作者
以前一条视频剪 2 小时,现在传上去就完事了。省下来的时间多拍两条内容,产量翻倍。
⭐⭐⭐⭐⭐
周小凡独立开发者 · 技术博主
内测免费太良心了,期待正式版。字幕识别对技术术语也挺准的,比我预期好很多。
⭐⭐⭐⭐⭐
刘老师心理咨询师 · 公众号作者
视频自动转成公众号文章这个功能太需要了,一条视频同时产出短视频和长文,效率拉满。
⭐⭐⭐⭐⭐
吴敏美食博主 · 小红书
封面自动生成的效果很统一,发出去整个主页看起来特别整齐,粉丝都说专业了好多。
⭐⭐⭐⭐⭐
孙总企业培训师 · B 站 UP 主
我团队 3 个人用同一套系统,各自的品牌风格完全不同,客户看了都以为是不同公司做的。
⭐⭐⭐⭐⭐
赵哥健身教练 · 抖音创作者
以前一条视频剪 2 小时,现在传上去就完事了。省下来的时间多拍两条内容,产量翻倍。
⭐⭐⭐⭐⭐
周小凡独立开发者 · 技术博主
内测免费太良心了,期待正式版。字幕识别对技术术语也挺准的,比我预期好很多。
⭐⭐⭐⭐⭐
刘老师心理咨询师 · 公众号作者
视频自动转成公众号文章这个功能太需要了,一条视频同时产出短视频和长文,效率拉满。
⭐⭐⭐⭐⭐
吴敏美食博主 · 小红书
封面自动生成的效果很统一,发出去整个主页看起来特别整齐,粉丝都说专业了好多。
⭐⭐⭐⭐⭐
孙总企业培训师 · B 站 UP 主
我团队 3 个人用同一套系统,各自的品牌风格完全不同,客户看了都以为是不同公司做的。
⭐⭐⭐⭐⭐

定价方案

内测期间全部免费,不限量使用

⏳ 内测期间算力有限,任务可能需要排队处理,感谢您的耐心等待

常见问题

关于 AI 视频字幕和口播视频制作的常见疑问

ZHIDUN Echo 是一款 AI 视频字幕和口播视频制作工具。上传一条原始口播视频,系统自动完成语音转写、字幕烧录、品牌包装、BGM 混音和宣发素材生成,帮助个人 IP 和中小品牌省去 80% 的后期剪辑时间。无需任何剪辑技能,几分钟即可产出可发布的短视频成片。
在 Echo 中上传视频后,系统会用 AI 语音识别引擎(基于 Whisper)自动将语音转为逐字同步的字幕,然后烧录到视频画面上。全程无需手动操作,支持竖屏、横屏和方屏多种比例,字幕位置和样式会自动适配视频布局。
Echo 支持 MP4、MOV、AVI、MKV 等主流视频格式,以及 MP3、WAV、M4A 等音频格式。视频分辨率不限,系统会自动将视频适配到 1080x1920 竖屏标准容器。横屏和方屏视频也会智能布局,在黑边区域叠加字幕和标题。
Echo 使用 MLX Whisper 高精度转写引擎,中文口播场景下准确率可达 95% 以上。系统还支持自定义专业术语词表,对行业专有名词识别更精准。字幕按字级别时间对齐,同步精度达到毫秒级,观看体验自然流畅。
一条 3-5 分钟的口播视频,从上传到产出成片通常需要 2-5 分钟,包括语音转写、字幕烧录、品牌包装和宣发素材生成。处理速度取决于视频时长和当前服务器负载,内测期间高峰时段可能需要排队等待。
Echo 采用 HTTPS 加密传输,视频文件存储在独立隔离的服务器上。处理完成后原始文件会在 7 天内自动清理。我们不会将用户视频用于任何模型训练或第三方用途,每个用户的品牌配置和内容数据完全隔离。
剪映和必剪是通用视频剪辑工具,需要手动操作每个环节。Echo 专注口播视频场景,从上传到出片全程自动化——自动加字幕、自动去口水词、自动品牌包装、自动生成宣发文案和标题。适合高频出片的个人 IP,一条视频几分钟搞定。
是的,内测期间 Echo 的全部功能完全免费,不限制视频数量。注册即可使用高精度 AI 字幕、品牌包装、BGM 混音和宣发素材包等所有功能。我们希望在内测阶段收集用户反馈,持续优化产品体验。

开始你的视频自动化之旅

30 秒注册,立即上传第一条口播视频,体验 AI 自动加字幕出片

立即注册,免费内测