DualOptim+는 LLM 언러닝의 optimizer state를 공유와 분리...
DualOptim+는 forget·retain 목표의 공통 성분은 base state로 공유하고 충돌하는 잔차는 delta state로 분리해, LLM machine unlearning의 망각-유틸리티 균형을 개...
Tag
LLM Training 태그가 붙은 글입니다.
DualOptim+는 forget·retain 목표의 공통 성분은 base state로 공유하고 충돌하는 잔차는 delta state로 분리해, LLM machine unlearning의 망각-유틸리티 균형을 개...
Angelos Perivolaropoulos의 'Training an LLM from Scratch, Locally'는 로컬에서 LLM을 훈련한다는 과장된 서사를 걷어내고, 작은 GPT를 tokenizer·arc...
이 논문은 장기 상호작용 에이전트 학습의 병목을 추상적인 탐색 난이도가 아니라 horizon length 자체에서 찾고, macro action과 subgoal decomposition 같은 horizon red...