image-analysis

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

图片分析与识别

图片分析与识别

支持智谱 GLM-4V 和千问 Qwen-VL 两种视觉模型。
当用户发送图片或要求分析图片时,必须使用此技能,不要使用 PIL、pytesseract 等其他方法。
支持智谱 GLM-4V 和千问 Qwen-VL 两种视觉模型。
当用户发送图片或要求分析图片时,必须使用此技能,不要使用 PIL、pytesseract 等其他方法。

配置

配置

编辑
skills/image-analysis/scripts/config.json
json
{
  "default_model": "zhipu",
  "zhipu": {
    "api_key": "your-zhipu-api-key",
    "model": "glm-4.6v-flash"
  },
  "qwen": {
    "api_key": "your-qwen-api-key",
    "model": "qwen3-vl-plus"
  }
}
API Key 获取:
编辑
skills/image-analysis/scripts/config.json
json
{
  "default_model": "zhipu",
  "zhipu": {
    "api_key": "your-zhipu-api-key",
    "model": "glm-4.6v-flash"
  },
  "qwen": {
    "api_key": "your-qwen-api-key",
    "model": "qwen3-vl-plus"
  }
}
API Key 获取:

命令行调用

命令行调用

bash
undefined
bash
undefined

分析本地图片(最常用)

分析本地图片(最常用)

python3 skills/image-analysis/scripts/vision.py analyze --image 图片路径 --prompt "描述图片内容"
python3 skills/image-analysis/scripts/vision.py analyze --image 图片路径 --prompt "描述图片内容"

分析网络图片

分析网络图片

python3 skills/image-analysis/scripts/vision.py analyze --image https://example.com/image.jpg --prompt "描述图片"
python3 skills/image-analysis/scripts/vision.py analyze --image https://example.com/image.jpg --prompt "描述图片"

多图对比

多图对比

python3 skills/image-analysis/scripts/vision.py analyze --image img1.jpg --image img2.jpg --prompt "对比差异"
python3 skills/image-analysis/scripts/vision.py analyze --image img1.jpg --image img2.jpg --prompt "对比差异"

指定模型

指定模型

python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --model qwen
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --model qwen

开启思考模式(仅智谱,提升准确度)

开启思考模式(仅智谱,提升准确度)

python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "详细分析" --thinking
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "详细分析" --thinking

视频分析

视频分析

python3 skills/image-analysis/scripts/vision.py analyze --video video.mp4 --prompt "总结视频内容"
python3 skills/image-analysis/scripts/vision.py analyze --video video.mp4 --prompt "总结视频内容"

JSON 输出

JSON 输出

python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --json
undefined
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --json
undefined

AI 调用场景

AI 调用场景

用户发送图片后,系统下载到本地(如
data/temp/images/xxx.jpg
):
bash
undefined
用户发送图片后,系统下载到本地(如
data/temp/images/xxx.jpg
):
bash
undefined

图片描述

图片描述

python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "描述这张图片的内容"
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "描述这张图片的内容"

OCR 识别

OCR 识别

python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "提取图片中的所有文字信息"
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "提取图片中的所有文字信息"

物体定位(开启思考模式)

物体定位(开启思考模式)

python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "找出物体位置,返回坐标" --thinking
undefined
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "找出物体位置,返回坐标" --thinking
undefined

模型选择

模型选择

场景推荐
简单描述任意
复杂推理、物体定位智谱 +
--thinking
高精度识别、文档解析千问
成本敏感智谱(免费)
场景推荐
简单描述任意
复杂推理、物体定位智谱 +
--thinking
高精度识别、文档解析千问
成本敏感智谱(免费)

注意事项

注意事项

  • 本地图片自动转 Base64,支持 jpg/png/gif/webp/bmp
  • 智谱图片限制 5MB,像素不超过 6000x6000
  • 千问不支持同时处理图片、视频和文件
  • 思考模式会增加响应时间但提升准确度
  • 本地图片自动转 Base64,支持 jpg/png/gif/webp/bmp
  • 智谱图片限制 5MB,像素不超过 6000x6000
  • 千问不支持同时处理图片、视频和文件
  • 思考模式会增加响应时间但提升准确度