LLM은 깊이를 효율적으로 쓰지 못하고 있을 수 있다
NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...
Tag
Transformer 태그가 붙은 글입니다.
NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...
Angelos Perivolaropoulos의 'Training an LLM from Scratch, Locally'는 로컬에서 LLM을 훈련한다는 과장된 서사를 걷어내고, 작은 GPT를 tokenizer·arc...
OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...