Search Results: modal

Found 244 Skills

AI & Machine Learning404kidwiz/claude-supercod...

multimodal-analysis

Analyze media files (PDFs, images, diagrams) that require interpretation beyond raw text. Extracts specific information or summaries from documents, describes visual content. Use for document analysis, image understanding, diagram interpretation, chart analysis, table extraction, and any media requiring visual or contextual interpretation beyond literal text extraction.

🇺🇸|EnglishTranslated

Testing & QAcinience/alicloud-skills

alicloud-ai-search-multimodal-embedding-test

Minimal multimodal embedding smoke test for Model Studio VL embedding models.

🇺🇸|EnglishTranslated

Frontend Developmentmoderndegree/agent-skills

dialogs-modals

Modal and dialog patterns, confirmations, destructive actions, and focus management. Use when building modals, dialogs, or confirmation dialogs.

🇺🇸|EnglishTranslated

AI & Machine Learningcinience/alicloud-skills

alicloud-ai-multimodal-qvq

Use when visual reasoning is needed with Alibaba Cloud Model Studio QVQ models, including step-by-step image reasoning, chart analysis, and visually grounded problem solving.

🇺🇸|EnglishTranslated

1 scripts/Checked

AI & Machine Learningcinience/alicloud-skills

alicloud-ai-multimodal-qwen-omni

Use when tasks require all-in-one multimodal understanding or generation with Alibaba Cloud Model Studio Qwen Omni models, including image-plus-audio interaction, voice assistants, and realtime multimodal agents.

🇺🇸|EnglishTranslated

1 scripts/Checked

Testing & QAcinience/alicloud-skills

alicloud-ai-multimodal-qwen-omni-test

Minimal multimodal omni smoke test for Model Studio Qwen Omni.

🇺🇸|EnglishTranslated

Testing & QAcinience/alicloud-skills

alicloud-ai-multimodal-qvq-test

Minimal visual reasoning smoke test for Model Studio QVQ.

🇺🇸|EnglishTranslated

AI & Machine Learningagentspace-so/runcomfy-ag...

image-to-video

Animate any still image on RunComfy — this skill is a smart router that matches the user's intent to the right i2v model in the RunComfy catalog. Picks HappyHorse 1.0 I2V (Arena #1, native audio, identity preservation) for general animations, Wan 2.7 with `audio_url` for custom-voiceover lip-sync, or Seedance 2.0 Pro for multi-modal animation from image + reference video + reference audio. Bundles each model's documented prompting patterns so the caller gets sharper output without burning iterations on the wrong model. Calls `runcomfy run <vendor>/<model>/image-to-video` (or endpoint variant) through the local RunComfy CLI. Triggers on "image to video", "image-to-video", "i2v", "animate image", "make this move", or any explicit ask to turn a still into video.

🇺🇸|EnglishTranslated

37.5k

AI & Machine Learningagentspace-so/runcomfy-ag...

seedance-v2

Generate cinematic short-form video with ByteDance Seedance 2.0 Pro on RunComfy. Documents Seedance 2.0 Pro's strengths (multi-modal references — up to 9 images, 3 videos, 3 audio — synchronized in-pass audio with natural lip-sync, cinematic motion refinement), the 4–15s duration schema, and when to route to HappyHorse 1.0 / Wan 2.7 / Kling instead. Calls `runcomfy run bytedance/seedance-v2/pro` through the local RunComfy CLI. Triggers on "seedance", "seedance 2", "seedance v2", "seedance pro", "bytedance video", or any explicit ask to generate video with this model.

🇺🇸|EnglishTranslated

37.4k

AI & Machine Learninggoogle-gemini/gemini-skil...

gemini-api-dev

Use this skill when building applications with Gemini models, Gemini API, working with multimodal content (text, images, audio, video), implementing function calling, using structured outputs, or needing current model specifications. Covers SDK usage (google-genai for Python, @google/genai for JavaScript/TypeScript), model selection, and API capabilities.

🇺🇸|EnglishTranslated

11.8k

AI & Machine Learningfirebase/agent-skills

firebase-ai-logic-basics

Official skill for integrating Firebase AI Logic (Gemini API) into web applications. Covers setup, multimodal inference, structured output, and security.

🇺🇸|EnglishTranslated

11.7k

Testing & QAcinience/alicloud-skills

alicloud-ai-multimodal-qwen-vl-test

Minimal image-understanding smoke test for Model Studio Qwen VL.

🇨🇳|ChineseTranslated

2 scripts/Attention