Tips

#GPU

GPU 태그가 붙은 응용프로그램 팁입니다.

2 tips tagged #GPU, 1-2 showing
1 / 1
Free web calculator
Proprietary / Terms of Use

APXML VRAM Calculator는 로컬 LLM이 내 GPU에 들어갈지 빠르게 가...

ApX Machine Learning의 APXML VRAM Calculator는 LLM 추론·파인튜닝에서 모델 크기, 양자화, KV 캐시, 컨텍스트 길이, 배치, 동시 사용자, GPU VRAM을 조합해 메모리와 대략적인 처...

  • 설치형 앱이나 오픈소스 저장소가 아니라 브라우저에서 쓰는 ApX Machine Learning의 무료 웹 계산기이며, 조사 시점에 공개된 calculator sour...
  • Inference와 Fine-tuning 탭을 나누고, FP16/Q8/Q4 같은 모델 weight quantization과 KV cache quantization을...
  • 모델 구조, layer/hidden dimension, active experts, attention 구조, batch size, sequence length, co...
  • Full fine-tuning, LoRA, QLoRA 쪽도 다루지만 공식 문구처럼 optimizer, parallelism, framework 구현에 따라 실제 필요...
  • 결과는 하드웨어 구매·모델 후보 압축용 ballpark로 쓰고, 최종 배포 전에는 실제 런타임(Ollama, vLLM, llama.cpp, Transformers 등...
ApX Machine Learning / VRAM CalculatorSource
Open source research code
Apache-2.0

Lucebox Hub는 특정 소비자 GPU에 맞춰 손으로 튜닝한 로컬 LLM 추론 실험...

Luce-Org/lucebox-hub는 RTX 3090/5090 같은 NVIDIA CUDA GPU와 Ryzen AI MAX+ 395 HIP 경로까지 겨냥해 Megakernel, DFlash, PFlash로 로컬 LLM 추론...

  • Megakernel, DFlash, PFlash 세 프로젝트를 한 저장소에 묶어 RTX 3090/5090/GB10/Jetson Thor 같은 CUDA GPU와 Ryz...
  • 공식 배포 패키지나 Release가 아니라 source build 중심이며, DFlash는 `git clone --recurse-submodules`, CUDA 12...
  • Megakernel은 Qwen 3.5-0.8B 전체 forward를 단일 CUDA dispatch로 묶고, DFlash/PFlash는 27B GGUF target의...
  • RTX 5090에서는 Qwen 3.6-27B DFlash+DDTree가 205 tok/s, AMD Strix Halo HIP path에서는 Qwen 3.5-27B가...
  • Apache-2.0 top-level LICENSE가 확인되지만, 하위 bench harness metadata와 외부 submodule/모델 weight 라이선스는...
  • Linux/CUDA 개발자가 가장 자연스러운 대상이고, Windows는 community benchmark 신호가 있으며, macOS Metal이나 범용 하드웨어 지...
Luce-Org/lucebox-hubSource