搜索： tilegym - AI Agent Skills

AI & Machine Learningnvidia/skills

tilegym-improve-cutile-kernel-perf

Iteratively optimize cuTile kernel performance through systematic profiling, bottleneck analysis, IR comparison, and targeted tuning. Covers tile sizes, occupancy, autotune configs, TMA, latency hints, persistent scheduling, num_ctas, flush_to_zero, and IR-level debugging. Use when asked to "optimize cutile kernel", "improve kernel perf", "tune cutile performance", "make kernel faster", or iteratively benchmark and refine a cuTile GPU kernel in the TileGym project.

🇺🇸|EnglishTranslated

16

AI & Machine Learningnvidia/skills

tilegym-adding-cutile-kernel

Add a new cuTile GPU kernel operator to TileGym. Covers dispatch registration in ops.py, cuTile backend implementation, __init__.py exports, test creation, and benchmark in tests/benchmark. Use when adding, creating, or implementing a new cuTile operator/kernel in TileGym, or when asking how to register a new cuTile op.

🇺🇸|EnglishTranslated

14

AI & Machine Learningnvidia/skills

monkey-patch-kernels-to-transformers

Integrate TileGym kernels into Hugging Face `transformers` models by replacing the library's submodule(s) and certain class(es)' implementations, and patching certain class(es)' init/forward/load weight methods prior to instantiating models. Used when the user requires integrating TileGym kernels into `transformers` models.

🇺🇸|EnglishTranslated

11

AI & Machine Learningnvidia/skills

improve-cutile-kernel-perf

Iteratively optimize cuTile kernel performance through systematic profiling, bottleneck analysis, IR comparison, and targeted tuning. Covers tile sizes, occupancy, autotune configs, TMA, latency hints, persistent scheduling, num_ctas, flush_to_zero, and IR-level debugging. Use when asked to "optimize cutile kernel", "improve kernel perf", "tune cutile performance", "make kernel faster", or iteratively benchmark and refine a cuTile GPU kernel in the TileGym project.

🇺🇸|EnglishTranslated

9

AI & Machine Learningpromptingcompany/nv-skill...

tilegym-monkey-patch-kernels-to-transformers

Integrate TileGym kernels into Hugging Face `transformers` models by replacing the library's submodule(s) and certain class(es)' implementations, and patching certain class(es)' init/forward/load weight methods prior to instantiating models. Used when the user requires integrating TileGym kernels into `transformers` models.

🇺🇸|EnglishTranslated

7

AI & Machine Learningnvidia/skills

adding-cutile-kernel

Add a new cuTile GPU kernel operator to TileGym. Covers dispatch registration in ops.py, cuTile backend implementation, __init__.py exports, test creation, and benchmark in tests/benchmark. Use when adding, creating, or implementing a new cuTile operator/kernel in TileGym, or when asking how to register a new cuTile op.

🇺🇸|EnglishTranslated

6

Search Results: tilegym

tilegym-improve-cutile-kernel-perf

tilegym-adding-cutile-kernel

monkey-patch-kernels-to-transformers

improve-cutile-kernel-perf

tilegym-monkey-patch-kernels-to-transformers

adding-cutile-kernel

Search Results: tilegym

tilegym-improve-cutile-kernel-perf

tilegym-adding-cutile-kernel

monkey-patch-kernels-to-transformers

improve-cutile-kernel-perf

tilegym-monkey-patch-kernels-to-transformers

adding-cutile-kernel