Tag

#Transformer

Google DeepMind의 arXiv 2604.17121은 feedforward Transformer가 긴 문맥 검색에는 강하지만, 시간에 따라 변하는 belief state를 반복 갱신하는 상태 추적에는 구...

Sangmin Lee2026.06.18

NeurIPS 2025에 채택된 arXiv 2505.13898은 Llama 3.1, Qwen 3, OLMo 2의 residual stream을 분석해, 깊은 Transformer의 후반부 layer가 새로운 다단...

Sangmin Lee2026.05.25

Angelos Perivolaropoulos의 'Training an LLM from Scratch, Locally'는 로컬에서 LLM을 훈련한다는 과장된 서사를 걷어내고, 작은 GPT를 tokenizer·arc...

Sangmin Lee2026.05.10

OmniShotCut은 shot boundary detection을 단순 프레임 경계 검출이 아니라 intra-shot·inter-shot 관계를 함께 예측하는 구조적 문제로 재정의하고, 합성 전환 데이터와 현대...

Sangmin Lee2026.05.06