LLM Engineering

139 articles

LLM Engineering

Harness-1: Training Search Agents with State Externalization

By Rob Ragan ★ 390 Unknown Jun 9, 2026

LLM Engineering

SichGate Methodology: When Healthcare CISOs Need to Red-Team 4-Bit Llama Without Hiring Offensive Security

By Rob Ragan ★ 2 Unknown Jun 8, 2026

LLM Engineering

ModelRegression: Building a Daily LLM Benchmark That Tests What Developers Actually Use

By Rob Ragan ★ 12 Unknown Jun 6, 2026

LLM Engineering

Inside AI Product Bench: Why Two LLMs Disagree on Half Their Product Recommendations

By Rob Ragan ★ 23 Unknown May 27, 2026

LLM Engineering

Neuromod-LLM: Treating Language Models Like Brains on Drugs

By Rob Ragan ★ 6 Unknown May 24, 2026

LLM Engineering

makemore: Understanding Language Models by Implementing Them Seven Different Ways

By Rob Ragan ★ 4.0k Unknown May 24, 2026

LLM Engineering

FastLLM: How a Single Line of Code Can Sabotage AI Reasoning While Improving Benchmarks

By Rob Ragan ★ 3 Unknown May 17, 2026

LLM Engineering

whichllm: Hardware-Aware LLM Selection Using Evidence-Graded Benchmarks

By Rob Ragan ★ 516 Unknown May 15, 2026

LLM Engineering

JARVIS: The LLM-Orchestrated AI System That Pioneered Multi-Model Task Automation

By Rob Ragan ★ 24.7k Unknown May 15, 2026

LLM Engineering

Guardrails AI: Building Fail-Safe Layers Around Unpredictable LLMs

By Rob Ragan ★ 6.9k Unknown May 15, 2026

LLM Engineering

MosaicML Composer: The PyTorch Training Framework That Makes Checkpoints Hardware-Agnostic

By Rob Ragan ★ 5.5k Unknown May 15, 2026

LLM Engineering

Building a Codebase Documentation Engine with LLMs: Lessons from auto_llm_codebase_analysis

By Rob Ragan ★ 27 Unknown May 15, 2026

LLM Engineering

How NYU Built a Leaderboard to Track LLM Agents Hacking Their Way Through CTF Challenges

By Rob Ragan ★ 5 Unknown May 15, 2026

LLM Engineering

Terminal-Bench: Why Evaluating LLM Agents on Real Command-Line Tasks Is Harder Than You Think

By Rob Ragan ★ 2.2k Unknown May 15, 2026

LLM Engineering

Building Threat Models in Draw.io: How XML Libraries Turn Free Diagrams into Security Tools

By Rob Ragan ★ 792 Unknown May 13, 2026

LLM Engineering

AWS Lambda Layers: How a GitHub List Solved Serverless Dependency Hell

By Rob Ragan ★ 2.3k Unknown May 13, 2026

LLM Engineering

Building API Documentation from Network Traffic: Inside Postman's Observability CLI

By Rob Ragan ★ 364 Unknown May 12, 2026

LLM Engineering

Gepetto: Teaching IDA Pro to Think with Language Models

By Rob Ragan ★ 3.4k Unknown May 11, 2026

LLM Engineering

Inside Hugging Face Tokenizers: How Rust Powers Sub-Second NLP Preprocessing at Scale

By Rob Ragan ★ 10.7k Unknown May 11, 2026

LLM Engineering

How Open-Assistant Built a ChatGPT Alternative with 160,000 Crowdsourced Conversations

By Rob Ragan ★ 37.4k Unknown May 11, 2026

LLM Engineering

LLM Engineering

Harness-1: Training Search Agents with State Externalization

SichGate Methodology: When Healthcare CISOs Need to Red-Team 4-Bit Llama Without Hiring Offensive Security

ModelRegression: Building a Daily LLM Benchmark That Tests What Developers Actually Use

Inside AI Product Bench: Why Two LLMs Disagree on Half Their Product Recommendations

Neuromod-LLM: Treating Language Models Like Brains on Drugs

makemore: Understanding Language Models by Implementing Them Seven Different Ways

FastLLM: How a Single Line of Code Can Sabotage AI Reasoning While Improving Benchmarks

whichllm: Hardware-Aware LLM Selection Using Evidence-Graded Benchmarks

JARVIS: The LLM-Orchestrated AI System That Pioneered Multi-Model Task Automation

Guardrails AI: Building Fail-Safe Layers Around Unpredictable LLMs

MosaicML Composer: The PyTorch Training Framework That Makes Checkpoints Hardware-Agnostic

Building a Codebase Documentation Engine with LLMs: Lessons from auto_llm_codebase_analysis

How NYU Built a Leaderboard to Track LLM Agents Hacking Their Way Through CTF Challenges

Terminal-Bench: Why Evaluating LLM Agents on Real Command-Line Tasks Is Harder Than You Think

Building Threat Models in Draw.io: How XML Libraries Turn Free Diagrams into Security Tools

AWS Lambda Layers: How a GitHub List Solved Serverless Dependency Hell

Building API Documentation from Network Traffic: Inside Postman's Observability CLI

Gepetto: Teaching IDA Pro to Think with Language Models

Inside Hugging Face Tokenizers: How Rust Powers Sub-Second NLP Preprocessing at Scale

How Open-Assistant Built a ChatGPT Alternative with 160,000 Crowdsourced Conversations

Stanford Alpaca: The $500 Experiment That Democratized LLM Fine-Tuning

OpenAI Evals: Building a Declarative Framework for LLM Benchmarking

Dalai: The Time Capsule That Democratized Local LLMs

Kor: Extracting Structured Data When Your LLM Doesn't Have Function Calling