2026년 2월 보고 읽은 것들...

06 Feb, 2026

21~28일

FlyDSL: Expert GPU Kernel Development with the Ease of MLIR Python Native DSL on AMD GPUs
- cute-dsl의 layout algebra가 너무 멋있다고 생각했는데 amd에서도 그 방식을 지원하기 위해 FlyDSL을 만들었다고 함.
The e-graph data structure - A gradual introduction
- e-graph에 대한 설명과 그것을 표현하는 방식에 대한 소개 글.
Don’t Love Your Job? I Hear You. But Don’t Quit. At Least, 99% of You Shouldn’t.
- 초 현실적인 글....
DeltaNet Explained (Part I)
- deltanet에 대해 설명해주는글. 사실 다른것들은 잘 모르겠고, linear attention이 rnn으로 변환되는 수식을 처음봐서(얘기만 들어왔음) 신기했음.

11~20일

Speculative Decoding, Visualized
- speculative decoding 과정에서 일어나는 일을 간단하고 명료하게 설명해준 글
The Illusion of Parity: Evaluating Open Models on Fresh Benchmarks
- 현재의 오픈 모델들이 frontier와 동급임을 주장하며 등장하고 있고 이에 대한 벤치마크를 분석한 글
- 오픈 모델이 특정 영역에서 강점을 가질 수 있지만, 전반적으로 프론티어 모델과 "동급"이라는 주장은 객관적이지 않으며, 이 격차가 곧 해소될 구조적 이유도 보이지 않는다고 주장
The Brain’s Learning Algorithm Isn’t Backpropagation
No Coding Before 10am
- 한 스타트업이 에이전트를 중심으로 엔지니어링을 바꾼 사례로 제시한 원칙들이 재밌었음.
- 에이전트가 주 작업자, 엔지니어는 에이전트가 잘 일할 수 있도록 돕는 역할로 전환
- 코드 재사용보다 에이전트가 이해하기 쉬운 코드를 우선시
- PRD(제품 요구사항 문서) 대신 목표와 제약조건을 한 문장으로 정의
- 코드 리뷰 대신 결과물이 목표를 충족하는지만 검증
- 토큰 비용보다 사람의 의사결정 시간이 병목이므로, 토큰을 아끼지 말 것
- 쓰지 않는 코드는 즉시 삭제 (에이전트에게 노이즈가 되므로)
- 3개월마다 모든 게 바뀐다고 가정하고 모듈식으로 구축
Taste Is Not a Moat
- 사람의 취향은 ai와의 차이점일 것이라고 믿어왔는데 그에 대한 반박의 의견을 준 글
- 테이스트는 해자(한번 구축하면 지속되는 구조적 우위)가 아니라 알파(시장 대비 초과수익처럼 시간이 지나면 소멸하는 우위)에 가깝다고 주장
- AI의 기본 수준이 몇 달마다 올라가기 때문에, 나의 판단력은 그 기준선 대비로만 가치가 있고 계속 감소한다는 것
- 또한 플랫폼도 수백만 사용자의 미시 신호를 수집해 산업적 규모로 테이스트를 합성하고 있다는 점을 이유로 듬.
- 또한 자신의 취향을 찾아내기 위해 A/B 테스팅, 고스트 라이팅, 외부 리뷰 세가지 방법을 제안함.
The AI Vampire
- AI가 생산성을 10배로 높여주지만, 그 과정에서 사람들을 에너지 뱀파이어처럼 소진시키고 있다는 경고
- 개인적으로 정말 완벽한 TDD를 해본적이 없기 때문에 아직 내가 코드를 어느정도 흐름은 이해해야 한다고 생각하고 있음.
- 이 과정에서 클로드 코드나 코덱스와 코딩을 하다보면 솔직히 이해도가 이전보다는 계속 멀어지는데 이해하는데 굉장한 피곤함을 느낌.
- 코드가 10배 이상으로 나온다고해서 계속 뽑아내려고하면 결국 손쓸수 없는 코드가 될거라 믿음. 물론 ai가 다 해줄거라는 믿음도 나도 있음.
- 하지만 이렇게 10배씩 뽑아봤자 정말 세상의 방향성을 바꿀만한 제품이 나올까에 대해서는 반대 의견임. 특히 그런 제품이 소프트웨어로만 생기지 않을 것 같다는 생각이 큼. (프론티어랩 제외)
- 그래서 너무 코드가 나온다고 막 뽑지 말고 조금은 속도를 조절해가면서 할 필요가 있지 않을까 싶음. (마찬가지로 프론티어랩 제외)

1~10일

CuTe DSL Tutorials on Optimizing NVFP4 GEMM for Blackwell
- blackwell 아키텍처에서 nvfp4 행렬곱 최적화를 다룬 영상
- v1~v8까지 업그레이드 해가며 각 단계마다 어떤 아이디어를 가지고 최적화를 적용하여 속도가 빨라지는지 설명해줌
RL Environments for Agentic AI: Who Will Win the Training & Verification Layer by 2030
- 반도체 설계가 그랬던 것처럼 ai 모델이 잘 working하고 있는지도 검증이 필요한데 이것을 일반적으로 잘했는지를 판별할 신뢰할 수 있는 신호가 없는게 문제임.
- RL 환경이 훈련-검증 인프라로 부상하고 있다고 생각함. 그리고 환경을 수작업으로 만드는게 아닌 evvironment factory를 만들어야 한다고 함.
- 이제 AI 경쟁의 승부처는 "더 좋은 모델"이 아니라, 모델이 제대로 일했는지 검증하는 RL 환경 인프라를 누가 장악하느냐다.
Sequential Attention: Making AI models leaner and faster without sacrificing accuracy
- Sequential Attention은 NP-난해한 서브셋 선택 문제를 순차적 의사결정 프로세스로 변환하여, 어텐션 점수를 활용해 가장 중요한 피처나 구성 요소를 단계별로 선택하는 알고리즘임.
- 이 기법은 단일 학습 과정에 선택을 통합해 기존 탐욕적 선택 방식 대비 훨씬 적은 비용으로 피처 선택, 가중치 가지치기, 임베딩 최적화 등 다양한 작업에서 최첨단 성능을 달성했다고 함.
- 향후 LLM 가지치기, 추천 시스템 최적화, 신약 개발 등 더 복잡한 영역으로 응용을 확장할 계획.
How X Decides What 550 Million Users See
- X(트위터)가 2026년 1월에 오픈소스한 피드 알고리즘의 코드를 파이프라인 단계별로 잘 분해해서 설명해줌.
- 후보 검색(Thunder/Phoenix) → 분류 → 필터링 → 스코어링 → 최종 선택이라는 흐름을 코드 레퍼런스와 함께 따라가기 쉽게 구성한 점이 좋음.
- 특히 Phoenix의 18개 engagement 확률 예측과 가중 합산 방식, 배치 내 후보 간 독립성을 보장하는 커스텀 어텐션 마스크 등 핵심 설계 결정을 구체적으로 짚어줌
Inside OpenAI’s in-house data agent
- OpenAI가 내부용으로 구축한 AI 데이터 에이전트에 대한 글. 70k개 데이터셋, 600PB 규모의 데이터 플랫폼에서 직원들이 자연어로 질문하면 테이블 탐색부터 SQL 작성, 분석, 리포트까지 자동으로 처리해주는 도구임.
- 핵심은 6단계 컨텍스트 레이어 설계. 테이블 메타데이터와 쿼리 이력, 도메인 전문가의 수동 어노테이션, Codex로 코드베이스를 크롤링해 테이블의 실제 생성 로직을 파악하는 enrichment, Slack/Docs/Notion 등의 사내 지식, 사용자 교정을 저장하는 메모리 시스템, 그리고 실시간 웨어하우스 쿼리까지 결합하여 RAG 기반으로 제공함
- 실용적 교훈도 흥미로운데, 도구를 많이 노출할수록 에이전트가 혼란스러워져서 통합·제한했다는 점, 세밀한 프롬프트보다 고수준 목표만 주고 GPT-5의 추론에 맡기는 게 더 나았다는 점, 그리고 테이블의 진짜 의미는 스키마가 아니라 그것을 생성하는 코드에 있다는 점이 핵심 takeaway임.
- 전반적으로 "사내 데이터 분석을 AI로 민주화한 사례"를 잘 보여주는 글.
Outsourcing thinking
- LLM에 사고를 "아웃소싱"하는 것의 위험성에 대한 에세이.
- Andy Masley의 "인지의 총량 오류(lump of cognition fallacy)" 글을 반박점으로 삼아, 기계에 맡기면 다른 걸 생각하면 되니 괜찮다는 낙관론에 반론을 펼침
How to generate text: using different decoding methods for language generation with Transformers
- llm 추론 과정에서 기본적으로 많이 쓰이는 개념인 greedy search, beam search, top-k sampling, top-p sampling 개념 소개
Generating Human-level Text with Contrastive Search in Transformers
- 결정론적의 대표적인 방법인 greedy search나 beam search의 경우 같은 단어가 반복되는 경우가 많은 단점이 있어, ngram등을 이용해 제한을 하는 등의 방식을 고려할 수 있지만, 적절치 않았음.
- Contrastive Search는 "이전 단어들과 얼마나 비슷한가"에 페널티를 주어 결정론적으로 동작하면서도 확률적 방식과 같이 자연스러운 문장을 만들어냄.
Transformer Inference Arithmetic
- 기본적인 트랜스포머 구조에서 추론 성능에 대해서 다룬 글
- GPU 스펙(메모리 대역폭, FLOPS, 통신 대역폭) 세 가지와 모델 파라미터 수만 알면, 배치 크기에 따라 memory bound인지 flops bound인지 판단하고 추론 지연 시간의 하한선을 수식으로 실제값의 76~90%정도까지의 정확도로 예측하였다.
The 'Super Bowl' standard: Architecting distributed systems for massive concurrency
- 슈퍼볼·올림픽·블랙프라이데이처럼 수백만 명이 동시에 몰리는 상황에서 분산 시스템을 안정적으로 운영하기 위한 4가지 아키텍처 패턴을 소개
- 핵심 전제: 오토스케일링만으로는 부족함. 클라우드가 새 인스턴스를 띄우기 전에 이미 장애가 발생함.
- 4가지 패턴:
  - 적극적 로드 셰딩: 트래픽을 비즈니스 우선순위별로 분류(로그인·결제는 필수, 추천·소셜피드는 포기 가능)하고, 용량 초과 시 낮은 우선순위 요청을 의도적으로 차단해 핵심 기능을 보호.
  - 벌크헤드(격벽) 패턴: 선박의 방수 격벽처럼 서비스별로 스레드풀·커넥션풀을 격리해, 부수적 서비스(예: 아바타 로딩) 장애가 핵심 서비스(로그인)로 전파되지 않도록 함. 서킷 브레이커와 세마포어 격리를 활용함.
  - 요청 병합(Request Collapsing): 5만 명이 동시에 같은 데이터를 요청하면, 첫 번째 요청만 DB에 보내고 나머지는 대기시킨 뒤 결과를 공유. 캐시 스탬피드를 방지하기 위해 확률적 조기 갱신(X-Fetch)도 병행함.
  - 게임 데이 리허설: 실제 트래픽의 1.5배 이상으로 장애를 의도적으로 주입하는 모의 훈련을 통해, 위 패턴들이 실제로 작동하는지 사전에 검증한다.
- 결론: 회복력은 도구가 아니라 마인드셋임. 시스템이 절대 안 깨지게 만드는 것이 아니라, "부분적으로, 우아하게 깨지도록" 설계해야 함.
The "Store Everything" Cloud Model Is Breaking Under Modern AI Workloads
- "모든 데이터를 클라우드에 저장하고 나중에 분석"하는 기존 모델이 AI 시대에 더 이상 통하지 않는 이유와 대안을 설명
- 공장의 로봇 500대가 밀리초 단위로 쏟아내는 텔레메트리 데이터를 전부 클라우드로 보내면, 99.9%는 "정상 작동" 로그인데도 막대한 전송·저장 비용이 발생함.
- 클라우드 기반 분석은 수 시간 뒤에야 이상을 감지하므로, 밀리초 단위 대응이 필요한 제조 현장에서는 이미 늦음.
- AI Edge Proxy를 제안함. 엣지(현장)에 경량 신경망을 배치해 데이터를 발생 지점에서 바로 분석함.
  - 노이즈 필터링: 정상 로그 99.9%는 버리고 요약만 클라우드에 전송 → 클라우드 비용 40~60% 절감.
  - 신호 증폭: 이상 징후만 선별해 클라우드로 업로드.
  - 동적 디버그 주입(핵심 기능): AI가 미세한 이상 패턴을 감지하면 자동으로 해당 장비의 로그 레벨을 DEBUG로 올려 고해상도 데이터를 캡처하고, 이상이 해소되면 자동 복귀. 즉, 장애가 터지기 전에 상세 데이터를 확보.
- 2026년에는 "빅데이터"가 아니라 "스마트 데이터"가 핵심이며, 엣지에서 노이즈와 신호를 구분하고 밀리초 단위로 자율 대응하는 AI 기반 아키텍처로 전환해야 한다는 주장.

#scrap