bailian-multimodal-skills
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseBailian Multimodal Skills
百炼多模态技能
Generate images, audio, video, and transcribe speech using Aliyun Bailian (Qwen/Wan/CosyVoice) models.
使用阿里云百炼(Qwen/Wan/CosyVoice)模型生成图片、音频、视频,并进行语音转写。
Features
功能特性
- Image Generation: ,
z-image-turbowan2.6-t2i - ASR (Speech-to-Text):
qwen3-asr-flash - TTS (Text-to-Speech):
qwen3-tts-flash - Text-to-Video:
wan2.6-t2v - Image-to-Video: ,
wan2.6-i2v-flashwan2.6-i2v - Reference-to-Video: ,
wan2.6-r2v-flashwan2.6-r2v
- 图片生成:,
z-image-turbowan2.6-t2i - ASR(语音转文字):
qwen3-asr-flash - TTS(文字转语音):
qwen3-tts-flash - 文字转视频:
wan2.6-t2v - 图片转视频:,
wan2.6-i2v-flashwan2.6-i2v - 参考素材转视频:,
wan2.6-r2v-flashwan2.6-r2v
Usage
使用方法
1. Image Generation
1. 图片生成
Generate images from text.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode image --model z-image-turbo --prompt "A futuristic city" --output "city.png"Models: ,
z-image-turbowan2.6-t2i根据文字描述生成图片。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode image --model z-image-turbo --prompt "A futuristic city" --output "city.png"可用模型:,
z-image-turbowan2.6-t2i2. ASR (Speech Recognition)
2. ASR(语音识别)
Transcribe audio files or URLs to text.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode asr --model qwen3-asr-flash --input-audio "https://example.com/audio.mp3"将音频文件或URL转写为文字。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode asr --model qwen3-asr-flash --input-audio "https://example.com/audio.mp3"3. TTS (Speech Synthesis)
3. TTS(语音合成)
Convert text to speech.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode tts --model qwen3-tts-flash --text "Hello world" --output "hello.wav"将文字转换为语音。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode tts --model qwen3-tts-flash --text "Hello world" --output "hello.wav"4. Text-to-Video (T2V)
4. 文字转视频(T2V)
Generate video from text prompt. Async task with auto-polling.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode t2v --model wan2.6-t2v --prompt "一只小猫在月光下奔跑" --duration 10 --size "1280*720" --output "cat.mp4"Models:
wan2.6-t2vOptions: (e.g., 1280720, 19201080), (2-15s), /, , , , ,
--size--duration--prompt-extend--no-prompt-extend--shot-type single|multi--negative-prompt--audio-url--watermark--seed根据文字提示生成视频,异步任务自动轮询状态。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode t2v --model wan2.6-t2v --prompt "一只小猫在月光下奔跑" --duration 10 --size "1280*720" --output "cat.mp4"可用模型:
wan2.6-t2v可选参数:(例如 1280720、19201080)、(2-15秒)、/、、、、、
--size--duration--prompt-extend--no-prompt-extend--shot-type single|multi--negative-prompt--audio-url--watermark--seed5. Image-to-Video (I2V)
5. 图片转视频(I2V)
Generate video from a reference image (first frame).
bash
uv run {baseDir}/scripts/run_multimodal.py --mode i2v --model wan2.6-i2v-flash --img-url "https://example.com/cat.png" --prompt "A cat running" --resolution 720P --duration 5 --output "cat_run.mp4"Models: ,
wan2.6-i2v-flashwan2.6-i2vOptions: (required, image URL or base64), , (480P/720P/1080P), , /, , , , ,
--img-url--prompt--resolution--duration--prompt-extend--no-prompt-extend--shot-type single|multi--negative-prompt--audio-url--watermark--seed以参考图片作为第一帧生成视频。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode i2v --model wan2.6-i2v-flash --img-url "https://example.com/cat.png" --prompt "A cat running" --resolution 720P --duration 5 --output "cat_run.mp4"可用模型:,
wan2.6-i2v-flashwan2.6-i2v可选参数:(必填,图片URL或base64编码)、、(480P/720P/1080P)、、/、、、、、
--img-url--prompt--resolution--duration--prompt-extend--no-prompt-extend--shot-type single|multi--negative-prompt--audio-url--watermark--seed6. Reference-to-Video (R2V)
6. 参考素材转视频(R2V)
Generate video with character/object references (images or videos as actors).
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 在公园里散步" --reference-urls "https://example.com/person.png" --size "1280*720" --duration 5 --output "walk.mp4"Multi-character example:
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 对 character2 说你好" --reference-urls "https://example.com/role1.mp4" "https://example.com/role2.png" --shot-type multi --output "dialog.mp4"Models: ,
wan2.6-r2v-flashwan2.6-r2vOptions: (required, space-separated, up to 5), (required, use character1/character2 to map references), , (2-10s), , , (silent, r2v-flash only), ,
--reference-urls--prompt--size--duration--shot-type single|multi--negative-prompt--no-audio--watermark--seed使用角色/物体参考素材(图片或视频作为角色)生成视频。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 在公园里散步" --reference-urls "https://example.com/person.png" --size "1280*720" --duration 5 --output "walk.mp4"多角色示例:
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 对 character2 说你好" --reference-urls "https://example.com/role1.mp4" "https://example.com/role2.png" --shot-type multi --output "dialog.mp4"可用模型:,
wan2.6-r2v-flashwan2.6-r2v可选参数:(必填,空格分隔,最多5个)、(必填,使用character1/character2映射参考素材)、、(2-10秒)、、、(静音,仅r2v-flash支持)、、
--reference-urls--prompt--size--duration--shot-type single|multi--negative-prompt--no-audio--watermark--seedConfiguration
配置说明
API Key 按以下优先级读取:
- 命令行参数
--api-key - 环境变量
DASHSCOPE_API_KEY - 配置文件
~/.config/bailian-multimodal/api_key.txt
bash
undefinedAPI Key 按以下优先级读取:
- 命令行参数
--api-key - 环境变量
DASHSCOPE_API_KEY - 配置文件
~/.config/bailian-multimodal/api_key.txt
bash
undefined方式一:环境变量
方式一:环境变量
export DASHSCOPE_API_KEY="sk-..."
export DASHSCOPE_API_KEY="sk-..."
方式二:配置文件
方式二:配置文件
mkdir -p ~/.config/bailian-multimodal
echo "sk-..." > ~/.config/bailian-multimodal/api_key.txt
undefinedmkdir -p ~/.config/bailian-multimodal
echo "sk-..." > ~/.config/bailian-multimodal/api_key.txt
undefined