2026년 2월 보고 읽은 것들...
06 Feb, 2026
21~28일
11~20일
Speculative Decoding, Visualized
speculative decoding 과정에서 일어나는 일을 간단하고 명료하게 설명해준 글
The Illusion of Parity: Evaluating Open Models on Fresh Benchmarks
현재의 오픈 모델들이 frontier와 동급임을 주장하며 등장하고 있고 이에 대한 벤치마크를 분석한 글
오픈 모델이 특정 영역에서 강점을 가질 수 있지만, 전반적으로 프론티어 모델과 "동급"이라는 주장은 객관적이지 않으며, 이 격차가 곧 해소될 구조적 이유도 보이지 않는다고 주장
The Brain’s Learning Algorithm Isn’t Backpropagation
No Coding Before 10am
한 스타트업이 에이전트를 중심으로 엔지니어링을 바꾼 사례로 제시한 원칙들이 재밌었음.
에이전트가 주 작업자, 엔지니어는 에이전트가 잘 일할 수 있도록 돕는 역할로 전환
코드 재사용보다 에이전트가 이해하기 쉬운 코드를 우선시
PRD(제품 요구사항 문서) 대신 목표와 제약조건을 한 문장으로 정의
코드 리뷰 대신 결과물이 목표를 충족하는지만 검증
토큰 비용보다 사람의 의사결정 시간이 병목이므로, 토큰을 아끼지 말 것
쓰지 않는 코드는 즉시 삭제 (에이전트에게 노이즈가 되므로)
3개월마다 모든 게 바뀐다고 가정하고 모듈식으로 구축
Taste Is Not a Moat
사람의 취향은 ai와의 차이점일 것이라고 믿어왔는데 그에 대한 반박의 의견을 준 글
테이스트는 해자(한번 구축하면 지속되는 구조적 우위)가 아니라 알파(시장 대비 초과수익처럼 시간이 지나면 소멸하는 우위)에 가깝다고 주장
AI의 기본 수준이 몇 달마다 올라가기 때문에, 나의 판단력은 그 기준선 대비로만 가치가 있고 계속 감소한다는 것
또한 플랫폼도 수백만 사용자의 미시 신호를 수집해 산업적 규모로 테이스트를 합성하고 있다는 점을 이유로 듬.
또한 자신의 취향을 찾아내기 위해 A/B 테스팅, 고스트 라이팅, 외부 리뷰 세가지 방법을 제안함.
The AI Vampire
AI가 생산성을 10배로 높여주지만, 그 과정에서 사람들을 에너지 뱀파이어처럼 소진시키고 있다는 경고
개인적으로 정말 완벽한 TDD를 해본적이 없기 때문에 아직 내가 코드를 어느정도 흐름은 이해해야 한다고 생각하고 있음.
이 과정에서 클로드 코드나 코덱스와 코딩을 하다보면 솔직히 이해도가 이전보다는 계속 멀어지는데 이해하는데 굉장한 피곤함을 느낌.
코드가 10배 이상으로 나온다고해서 계속 뽑아내려고하면 결국 손쓸수 없는 코드가 될거라 믿음. 물론 ai가 다 해줄거라는 믿음도 나도 있음.
하지만 이렇게 10배씩 뽑아봤자 정말 세상의 방향성을 바꿀만한 제품이 나올까에 대해서는 반대 의견임. 특히 그런 제품이 소프트웨어로만 생기지 않을 것 같다는 생각이 큼. (프론티어랩 제외)
그래서 너무 코드가 나온다고 막 뽑지 말고 조금은 속도를 조절해가면서 할 필요가 있지 않을까 싶음. (마찬가지로 프론티어랩 제외)
1~10일
CuTe DSL Tutorials on Optimizing NVFP4 GEMM for Blackwell
blackwell 아키텍처에서 nvfp4 행렬곱 최적화를 다룬 영상
v1~v8까지 업그레이드 해가며 각 단계마다 어떤 아이디어를 가지고 최적화를 적용하여 속도가 빨라지는지 설명해줌
RL Environments for Agentic AI: Who Will Win the Training & Verification Layer by 2030
반도체 설계가 그랬던 것처럼 ai 모델이 잘 working하고 있는지도 검증이 필요한데 이것을 일반적으로 잘했는지를 판별할 신뢰할 수 있는 신호가 없는게 문제임.
RL 환경이 훈련-검증 인프라로 부상하고 있다고 생각함. 그리고 환경을 수작업으로 만드는게 아닌 evvironment factory를 만들어야 한다고 함.
이제 AI 경쟁의 승부처는 "더 좋은 모델"이 아니라, 모델이 제대로 일했는지 검증하는 RL 환경 인프라를 누가 장악하느냐다.
Sequential Attention: Making AI models leaner and faster without sacrificing accuracy
Sequential Attention은 NP-난해한 서브셋 선택 문제를 순차적 의사결정 프로세스로 변환하여, 어텐션 점수를 활용해 가장 중요한 피처나 구성 요소를 단계별로 선택하는 알고리즘임.
이 기법은 단일 학습 과정에 선택을 통합해 기존 탐욕적 선택 방식 대비 훨씬 적은 비용으로 피처 선택, 가중치 가지치기, 임베딩 최적화 등 다양한 작업에서 최첨단 성능을 달성했다고 함.
향후 LLM 가지치기, 추천 시스템 최적화, 신약 개발 등 더 복잡한 영역으로 응용을 확장할 계획.
How X Decides What 550 Million Users See
X(트위터)가 2026년 1월에 오픈소스한 피드 알고리즘의 코드를 파이프라인 단계별로 잘 분해해서 설명해줌.
후보 검색(Thunder/Phoenix) → 분류 → 필터링 → 스코어링 → 최종 선택이라는 흐름을 코드 레퍼런스와 함께 따라가기 쉽게 구성한 점이 좋음.
특히 Phoenix의 18개 engagement 확률 예측과 가중 합산 방식, 배치 내 후보 간 독립성을 보장하는 커스텀 어텐션 마스크 등 핵심 설계 결정을 구체적으로 짚어줌
Inside OpenAI’s in-house data agent
OpenAI가 내부용으로 구축한 AI 데이터 에이전트에 대한 글. 70k개 데이터셋, 600PB 규모의 데이터 플랫폼에서 직원들이 자연어로 질문하면 테이블 탐색부터 SQL 작성, 분석, 리포트까지 자동으로 처리해주는 도구임.
핵심은 6단계 컨텍스트 레이어 설계. 테이블 메타데이터와 쿼리 이력, 도메인 전문가의 수동 어노테이션, Codex로 코드베이스를 크롤링해 테이블의 실제 생성 로직을 파악하는 enrichment, Slack/Docs/Notion 등의 사내 지식, 사용자 교정을 저장하는 메모리 시스템, 그리고 실시간 웨어하우스 쿼리까지 결합하여 RAG 기반으로 제공함
실용적 교훈도 흥미로운데, 도구를 많이 노출할수록 에이전트가 혼란스러워져서 통합·제한했다는 점, 세밀한 프롬프트보다 고수준 목표만 주고 GPT-5의 추론에 맡기는 게 더 나았다는 점, 그리고 테이블의 진짜 의미는 스키마가 아니라 그것을 생성하는 코드에 있다는 점이 핵심 takeaway임.
전반적으로 "사내 데이터 분석을 AI로 민주화한 사례"를 잘 보여주는 글.
Outsourcing thinking
LLM에 사고를 "아웃소싱"하는 것의 위험성에 대한 에세이.
Andy Masley의 "인지의 총량 오류(lump of cognition fallacy)" 글을 반박점으로 삼아, 기계에 맡기면 다른 걸 생각하면 되니 괜찮다는 낙관론에 반론을 펼침
How to generate text: using different decoding methods for language generation with Transformers
llm 추론 과정에서 기본적으로 많이 쓰이는 개념인 greedy search, beam search, top-k sampling, top-p sampling 개념 소개
Generating Human-level Text with Contrastive Search in Transformers
결정론적의 대표적인 방법인 greedy search나 beam search의 경우 같은 단어가 반복되는 경우가 많은 단점이 있어, ngram등을 이용해 제한을 하는 등의 방식을 고려할 수 있지만, 적절치 않았음.
Contrastive Search는 "이전 단어들과 얼마나 비슷한가"에 페널티를 주어 결정론적으로 동작하면서도 확률적 방식과 같이 자연스러운 문장을 만들어냄.
Transformer Inference Arithmetic
기본적인 트랜스포머 구조에서 추론 성능에 대해서 다룬 글
GPU 스펙(메모리 대역폭, FLOPS, 통신 대역폭) 세 가지와 모델 파라미터 수만 알면, 배치 크기에 따라 memory bound인지 flops bound인지 판단하고 추론 지연 시간의 하한선을 수식으로 실제값의 76~90%정도까지의 정확도로 예측하였다.
The 'Super Bowl' standard: Architecting distributed systems for massive concurrency
슈퍼볼·올림픽·블랙프라이데이처럼 수백만 명이 동시에 몰리는 상황에서 분산 시스템을 안정적으로 운영하기 위한 4가지 아키텍처 패턴을 소개
핵심 전제: 오토스케일링만으로는 부족함. 클라우드가 새 인스턴스를 띄우기 전에 이미 장애가 발생함.
4가지 패턴:
적극적 로드 셰딩: 트래픽을 비즈니스 우선순위별로 분류(로그인·결제는 필수, 추천·소셜피드는 포기 가능)하고, 용량 초과 시 낮은 우선순위 요청을 의도적으로 차단해 핵심 기능을 보호.
벌크헤드(격벽) 패턴: 선박의 방수 격벽처럼 서비스별로 스레드풀·커넥션풀을 격리해, 부수적 서비스(예: 아바타 로딩) 장애가 핵심 서비스(로그인)로 전파되지 않도록 함. 서킷 브레이커와 세마포어 격리를 활용함.
요청 병합(Request Collapsing): 5만 명이 동시에 같은 데이터를 요청하면, 첫 번째 요청만 DB에 보내고 나머지는 대기시킨 뒤 결과를 공유. 캐시 스탬피드를 방지하기 위해 확률적 조기 갱신(X-Fetch)도 병행함.
게임 데이 리허설: 실제 트래픽의 1.5배 이상으로 장애를 의도적으로 주입하는 모의 훈련을 통해, 위 패턴들이 실제로 작동하는지 사전에 검증한다.
결론: 회복력은 도구가 아니라 마인드셋임. 시스템이 절대 안 깨지게 만드는 것이 아니라, "부분적으로, 우아하게 깨지도록" 설계해야 함.
The "Store Everything" Cloud Model Is Breaking Under Modern AI Workloads
"모든 데이터를 클라우드에 저장하고 나중에 분석"하는 기존 모델이 AI 시대에 더 이상 통하지 않는 이유와 대안을 설명
공장의 로봇 500대가 밀리초 단위로 쏟아내는 텔레메트리 데이터를 전부 클라우드로 보내면, 99.9%는 "정상 작동" 로그인데도 막대한 전송·저장 비용이 발생함.
클라우드 기반 분석은 수 시간 뒤에야 이상을 감지하므로, 밀리초 단위 대응이 필요한 제조 현장에서는 이미 늦음.
AI Edge Proxy를 제안함. 엣지(현장)에 경량 신경망을 배치해 데이터를 발생 지점에서 바로 분석함.
노이즈 필터링: 정상 로그 99.9%는 버리고 요약만 클라우드에 전송 → 클라우드 비용 40~60% 절감.
신호 증폭: 이상 징후만 선별해 클라우드로 업로드.
동적 디버그 주입(핵심 기능): AI가 미세한 이상 패턴을 감지하면 자동으로 해당 장비의 로그 레벨을 DEBUG로 올려 고해상도 데이터를 캡처하고, 이상이 해소되면 자동 복귀. 즉, 장애가 터지기 전에 상세 데이터를 확보.
2026년에는 "빅데이터"가 아니라 "스마트 데이터"가 핵심이며, 엣지에서 노이즈와 신호를 구분하고 밀리초 단위로 자율 대응하는 AI 기반 아키텍처로 전환해야 한다는 주장.
#scrap