Search Results: deduplication

Found 57 Skills

audio-downloader

Batch download audio resources from websites, supports sites requiring login, with automatic deduplication and report generation

🇨🇳|ChineseTranslated

1 scripts/Checked

Frontend Developmentpatternsdev/skills

react-data-fetching

Modern React data fetching patterns. Use when implementing caching, deduplication, optimistic updates, or parallel loading with TanStack Query, SWR, or Suspense.

🇺🇸|EnglishTranslated

AI & Machine Learningorq-ai/assistant-plugins

generate-synthetic-dataset

Generate and curate evaluation datasets — structured generation via dimensions-tuples-NL, quick from description, expansion from existing data, plus dataset maintenance through deduplication, rebalancing, and gap-filling. Use when creating eval data, expanding test coverage, or cleaning datasets. Do NOT use when sufficient real production data exists (use analyze-trace-failures instead). Do NOT use for evaluator creation (use build-evaluator).

🇺🇸|EnglishTranslated

Data Processingonewave-ai/claude-skills

csv-excel-merger

Merge multiple CSV/Excel files with intelligent column matching, data deduplication, and conflict resolution. Handles different schemas, formats, and combines data sources. Use when users need to merge spreadsheets, combine data exports, or consolidate multiple files into one.

🇺🇸|EnglishTranslated

Frontend Developmentdadbodgeoff/drift

api-client

Centralized TypeScript API client with typed namespaces, automatic token refresh with request deduplication, TanStack Query integration, and consistent error handling.

🇺🇸|EnglishTranslated

Automationar9av/obsidian-wiki

obsidian-wiki-ingest

Automates ingestion of documents into the Obsidian wiki (obsidian-wiki) using the wiki-ingest pipeline. Handles deduplication via manifest, frontmatter, and cross-links; triggers on user request within the obsidian-wiki project context.

🇺🇸|EnglishTranslated

1 scripts/Checked

Data Processingdavila7/claude-code-templ...

nemo-curator

GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality training datasets, cleaning web data, or deduplicating large corpora.

🇺🇸|EnglishTranslated

AI & Machine Learningdeletexiumu/agentskills-h...

ai-news-digest

Multi-source AI news aggregation and digest generation with deduplication, classification, and source tracing. Supports 20+ sources, 5 theme categories, multi-language output (ZH/EN/JA), and image export.

🇨🇳|ChineseTranslated

9 scripts/Attention

Data Processingletta-ai/skills

multi-source-data-merger

This skill provides guidance for merging data from multiple heterogeneous sources (JSON, CSV, Parquet, XML, etc.) into a unified dataset. Use this skill when tasks involve combining records from different file formats, applying field mappings, resolving conflicts based on priority rules, or generating merged outputs with conflict reports. Applicable to ETL pipelines, data consolidation, and record deduplication scenarios.

🇺🇸|EnglishTranslated

Data Processingtiangong-ai/skills

ai-tech-rss-fetch

Subscribe to AI and tech RSS feeds and persist normalized metadata into SQLite using mature Python tooling (feedparser + sqlite3). Use when adding feed URLs/OPML sources, running incremental sync with deduplication, and storing entry metadata without full-text extraction or summarization.

🇺🇸|EnglishTranslated

1 scripts/Checked

Tools & Utilitiesaaaaqwq/claude-code-skill...

search-layer

DEFAULT search tool for ALL search/lookup needs. Multi-source search and deduplication layer with intent-aware scoring. Integrates Brave Search (web_search), Exa, Tavily, and Grok to provide high-coverage, high-quality results. Automatically classifies query intent and adjusts search strategy, scoring weights, and result synthesis. Use for ANY query that requires web search — factual lookups, research, news, comparisons, resource finding, "what is X", status checks, etc. Do NOT use raw web_search directly; always route through this skill.

🇨🇳|ChineseTranslated

4 scripts/Attention

Marketing & Growthagricidaniel/claude-ads

ads-server-side-tracking

Server-side tracking pipeline audit covering server-side Google Tag Manager (sGTM), Meta CAPI Gateway, Conversions API health, event deduplication via event_id, server-side hit ratio targets, pixel debugging, and PII hashing discipline. Use when user says server-side tracking, sGTM, server-side GTM, server-side tagging, CAPI, Conversions API, CAPI Gateway, Meta Conversions API, event deduplication, event_id, pixel debug, pixel health, Pixel/CAPI audit, first-party tracking, iOS 14.5 recovery, or server-side hit ratio.

🇺🇸|EnglishTranslated