2025년 11월 scrap

05 Nov, 2025

ICQuant: Index Coding enables Low-bit LLM Quantization
- llm에서 quantization을 할 때 outlier에 대해서 index coding을 통해 별도로 처리하여 좋은 성능과 압축률을 얻었다는 아이디어.
Windsurf Codemaps: Understand Code, Before You Vibe It
- 윈드서프를 좋아하는 유저로써 요새 윈드서프가 가는 길이 참 좋은 것 같다.
- AI와 더 많은 상호작용을하고 유저를 똑똑히 만들어 주는 것, 다른 바이브코딩 툴들과는 길이 좀 다른 것 같고 개인적으로는 만족한다.
- 개인적으로 cascade보다는 claude code를 좀더 선호하면서 쓰고 있긴하다.
Coding Agents Are Outliers
- 아주 동의하는 글이다.
- 다른 측면에서 얘기하면 나는 코딩을 못하는 llm이 다른 에이전트 환경에서 선택받을 수 있을 것이라고 생각하지 않는다.

JetBrains Built a Way to Actually Measure AI Coding Tools (Finally)
- jetbrains에서 만든 DPAI arena라는 벤치마크에 대한 소개임.
- swe-bench를 대체하는 것을 목표로 설계된 것 같음.
- 아직 spring framework를 기준으로 출시 되었지만 다른 언어 및 프레임워크 지원예정이라고...
Terminal-Bench 2.0: the most impt coding agent benchmark of 2025 gets a v2! Launch + Q&A w/ founders
- 터미널 벤치 2.0과 에이전트용 evlauation 및 optimizing framework인 Harbor 를 발표했음.
- 무엇보다도 미국의 산업계와 학계 (+투자자) 사이의 협력이 참 부러워 보였다.
Raft Consensus in 2,000 words
- 분산시스템에서 많이 쓰이는 알고리즘 중 하나인 Raft에 대한 적당한 길이의 설명글.

Lecture 84: Numerics and AI
- 여러 quantization 관련 고찰에 대한 내용. 아직 잘 다루지는 못하지만 nvfp4 해커톤 때문에 편하게 들을 수 있었던 것 같다.
The 1 Billion Token Challenge: Finding the Perfect Pre-training Mix
- 50% finePDFs: 30% DCLM-baseline: 20% FineWeb-Edu
- 여러 어닐링 전략(데이터셋간의 전환시 사용함)을 사용하는 것보다 그냥 정적 혼합이 낫다.
- 커리큘럼 학습보다 그냥 정적 혼합이 낫다.
Beyond Quantization: Bringing Sparse Inference to PyTorch
- 위에서 언급한 "Numerics and AI"에서 끝에 질문중에 sparse에 대한 Q&A가 있었던 것으로 기억한다. 아직 메인분야는 아니고 아무래도 sparse가 단순한 quantization이 아닌 좀 더 복잡한 접근이라는 점이 사람들이 접근하기 힘든 영역이라고 했었던 것으로 기억한다.
- 처음에는 이해가 가지 않았었는데 이게 relu연산이랑 연관을 지어 말하니 좀 이해가 되는 것 같기도 하다.
- 아마 relufication이 말했던 방법 이였던 것 같다.
- 학습 없이도 CETT나 CATS 같은 방법으로 가능하다는 점이 흥미롭긴하다.
- 최근에도 qat같은 식으로 quantization이 발전하는 것으로 볼때 sparse를 더 효율적으로 다루게 되면 relufication도 당연히 받아들여지지 않을까 싶기도하다.

Learning CUDA by optimizing matrix-vector multiplication (SGEMV) for cuBLAS-like performance - A worklog
- gemv 커널에서 있는 현상들을 잘 분석한 글
Making GPUs Actually Fast: A Deep Dive into Training Performance
- Jane street 에서 쓰는 간단한 성능 최적화 방법들을 정리한 영상.
I Trained an LLM to Dream. It Remembers Everything.
- 꿈을 통해 기억한다는 논문을 보고 영감을 받아서 context를 유지하는 모델을 만드는 영상.
- 사실 context 유지가 정말 되는것보다 forgetting이 더 많을것 같긴한데 개인 연구자로써 저렇게 해볼 수 있다는 영감을 받았다.
INTELLECT-3: A 100B+ MoE trained with large-scale RL
- glm-4.5-air base 모델을 사후 학습(sft + rl)을 통해 좋은 성능을 내는 모델을 만든 prime intellect 팀
- 사전학습이 물론 중요하지만 현실적으로 모든 팀이 굳이 할 필요는 없다고 생각한다. 어차피 규모의 싸움이기 때문에 이미 대형랩에서 잘 공개해준 base 모델로 충분할 거라는 생각을 한다.
- 이제 더 중요한 것은 각 사용 환경에 따른 사후학습이 더 중요한 순간이 온 것 같다고 생각한다. 너무 경험해보고 싶은 일이고 부럽다.