2026년 1월 보고 읽은 것들...
21일 ~ 31일
- GPU MODE - Lecture 15: CUTLASS
- 이걸 왜 지금 봤을까.... 제목이 잘 못되었다. CuTe-dsl을 접하면 제일 먼저봐야될 영상이다.
- Devin Review: AI to Stop Slop
- Devin Review는 최첨단 AI와 UX를 활용하여, 사람이 작성했든 에이전트가 작성했든 상관없이 점점 더 복잡해지는 코드 차이(diff)에 대한 인간의 이해 능력을 확장해 주는 코드 리뷰 도구
- cognition팀은 항상 사람이 더 코드를 이해해가면서 코딩을 더 잘 할 수 있을까에 집중하는 것 같다. 아직 안써봤지만 멋진 도구이길...
- Deep Dive: Anthropic's Performance Take-Home (The One Claude Beat Humans At)
- 앤트로픽 입사시험의 성능 최적화 문제에 대한 설명이다. 저런 과제가 나올수 있다는 것이 너무 멋지다.
- My time at Amazon, Part I
- 아마존에서 일하는 디자이너가 남긴 내부 뭐 시스템과 자기 경험에 대한 글이였다. 엄청 중독적으로 일할 수 있는 분위기 잘 되어 있는 것 같다.
- Enable NVFP4 Inference for Nemotron with Quantization-Aware Distillation
- 개인적으로 nvfp4는 딥러닝 연산에서 유의미하게 의미를 담든 데이터 중에 가장 작은 자료형이지 않을까 생각해서 기대가 크다.
- nvidia에서 본인의 모델 nemotron nano 모델을 nvfp4로 포팅하면서 성능 감소를 최소화한 방법을 공유하였다.
- 보통 많이 쓰는 QAT 대신 QAD를 사용하였고 bf16 교사 모델을 고정하고, nvfp4 양자화된 학생 모델이 교사의 출력 분포를 학습하는 방식이라고 한다.
- QAT는 SFT/RL 등 다단계 후처리를 거친 모델에서 불안정한 반면, QAD는 단일 단계로 적용 가능하고 부분 데이터로도 복구가 된다는 장점이 있다고...
11일 ~ 20일
- Warp Specialization in Triton: Design and Roadmap
- 요새 cuda를 공부하다가 cuTile을 공부하고 있는데 블록 기반의 프로그래밍이 정말 편하다는 것은 알겠다.
- 하지만 사실 warp 단위를 숨기면서 그런것들이 좀 편해진 면이 있는데 현대 아키텍쳐에서 파이프라인이 중요해지면서 warp specialization이 부각되었고 이 상황에 맞추어 트리톤 컴파일러를 업데이트하는 얘기가 흥미롭다.
- 엔비디아 한정이라면 Tile IR을 그냥 래핑하면 안되나 싶기도 하다.
- What is TorchDynamo and TorchInductor? (for Dummies)
- torch.compile에서 주요한 역할을 하는 torch dynamo와 torch inductor가 어떤 역할을 하는지 정리한 글
- Signals vs Query-Based Compilers
- hot reloading이 어떻게 동작하는지 대략적으로만 생각했었는데 짐작이 가게끔 해주는 것 같다.
- GPU MODE: Lecture 89: cuTile (from friends at NVIDIA)
- cuda에 tile 관련 api를 추가하면서 어떤 생각을 갖고 기존에 있는것과 어떤 차별을 두고 앞으로 어떻게 지향하는지 그런 방향성을 볼 수 있었던 글.
- cuTile로 tensara 문제를 풀어가면서 공부중인데 쉽고 굉장히 재밌다.
- NVFP4 Pretraining: From Theory to Implementation (Part 1)
- nvfp4의 개념과 기존의 엔비디아의 nvfp4 훈련 레시피에서 나온 내용들을 알기 쉽게 정리해 주었음.
- Random Hadamard Transforms(RHT): outlier를 분산시키기 위해 사용, Wgrad에 적용함
- Stochastic Rounding(SR): 일정하게 rounding을 적용하는 것이 instable하게 함, gradients에 적용함
- 2D block scaling: 16*16 블록으로 보고 양자화 함, W에 적용 (chain rule 일관성 유지)
- Selective Precision
- Operation Selection: linear layer만 FP4로 양자화함.(연산량의 90%를 차지함)
- Layer Selection: 민감도가 높은 층은 고정밀도 유지 (첫 레이어, 마지막 레이어들(~15%))
- Training 중 Precision 전환: 훈련 후반에 고정밀도로 전환
- Foward pass만 전환해도 괜찮음. 1%만해도 상당한 회복
- Open Responses: What you need to know
- 기존 llm 응답의 사실상 표준이였던 chat completion 포맷의 한계를 넘기 위해 openai가 response api를 오픈 추론 표준으로 공개함.
- GPU MODE: Lecture 90: Building resilient ML Engineering skills
- speaker가 GPU를 이용해 무언가를 하면서 겪었던 경험 및 애로사항들을 공유해줌.
- ml-engineering-open-book을 통해 해당 경험을 공유해줌.
- The All-Star Chinese AI Conversation of 2026
- 중국에서 열린 AGI-Next 행사에서 각 오픈소스 모델 수장들이 참석해 나눈 인사이트를 공유해줌.
- 상당한 책임감과 사명을 갖고 ai를 개발하고 있는 듯하다.
1일 ~ 10일
- When someone says they hate your product with a burning passion
- 제품에 대해 부정적인 피드백을 받았을 때 어떻게 생각해야 하는지 알려주는 글.
- 나도 가끔 내가 만드는 제품에 대한 피드백 보면 화가 나서 짜증나고 그럴 때가 있는데 참 그러면 안되는데... 쉽지가 않다...
- Why users cannot create Issues directly
- discussion에서 시작해서 issue로 옮겨가는 시스템이 대형 오픈소스 프로젝트에 대해서 참 좋은 방법인것 같음.
- Working fast and slow
- 나도 하루하루가 참 컨디션에 따라 일하는 사람으로써 매우 공감하는 글...
- Towards Generalizable and Efficient Large-Scale Generative Recommenders
- 50M -> 1B 파라미터 규모로 생성형 추천 모델을 확장하여 Netflix 추천 성능을 개선하는 내용.
- Compiler Engineering in Practice - Part 1: What is a Compiler?
- 컴파일러가 어떤 것인지 쉽게 설명해주는 글임. 나머지 파트가 궁금해졌음.
- Compiler Engineering In Practice - Part 2: Why is a compiler?
- 컴파일러가 왜 존재하는지를 설명해주는 글. 컴파일러가 주는 이점이 직접적인 성능 향상이 아니라 프로그래밍 모델과 시스템 계층화가 주는 생산성 이점이 더 가치를 준다는 내용이 와닿는다.
- 개인적으로 gpu 프로그래밍이 궁금해서 공부를 하고 있는데 A100 이후부터는 cuda의 스레드 기반 프로그래밍 모델이 망가졌다고 생각한다.(참고로 나는 gpu 뉴비임)
- 아마 triton과 같은 타일 기반 언어들의 성공 사례들을 보면서 cute-dsl을 통해서 기존 cuda 기반에서 흉내를 내고 싶었던 것 같고 그걸로 부족해서 tile ir도 cuda에 추가 되고 한게 아닐까 생각하고 있었는데 아무튼 컴파일러라는게 결국 소프트웨어 개발자들이 어떻게 개발할까를 결정 짓고 하는것 같아서 크게 와 닿았다.
- Keeping 20,000 GPUs healthy
- 모달 플랫폼에서 다양한 클라우드로부터 GPU를 임대해서 쓰면서 품질을 관리하는 방법을 공유하였다.
- 궁금해서 클라우드 A, B, C, D가 어디일지 gpt-5.2 pro에게 연구하게 했더니 B=Azure: 90~95%, D=OCI: 80~90%, C=GCP: 70~85%, A=AWS: 60~75%라고 한다.
- GPU Kernel Optimization with Waleed Atallah , Co-Founder & CEO @ Mako | Beyond CUDA Summit 2025
- GPU Kernel을 작성할 일이 많은 사유를 얘기해줬고, 자신들이 하는 일이 왜 필요한지 소개하고 미래에는 어떤 모형이 될지 설명해주었다.
- 이러한 일에 관심은 엄청 많은데 GPU 커널을 작성할 일이 더 있을지에 대해 의문이였는데 조금이나마 추가적인 생각을 가질 수 있게 되었다.