Blog Projects Links About

Back

Blog

Page 1 - Showing 4 of 4 posts View all posts by years →

Mar 16, 2026

Isaac Lab 训练初体验与强化学习探索

从零开始学习 Isaac Lab 训练机器狗的过程中，对强化学习、奖励函数、贝叶斯优化和 PPO 的一些思考与总结。

8 min read Chinese
- rl
- isaac lab
- robotics
- 学习笔记
Mar 15, 2026

LLMs as Human Preference Proxies

LLM作为压缩了大量人类偏好描述的集合，实际上已经可以替代许多“手动学习人类偏好”的工作，比如强化学习中奖励函数的设计

4 min read Chinese
- llm
- rl
Mar 15, 2026

Compiled Behavior vs Runtime Simulation

A bilingual note on PPO, critics, world models, and why runtime simulation in robotics usually lives in the physics engine, not the policy.

9 min read bilingual
- rl
- ppo
- world-models
- robotics
Nov 18, 2025

Introduction to The Age of Tools

人类的文明史，或许就是一部“权力让渡史”。在这个工具塑造我们的时代，我们该如何守护人之为人的自主与尊严？

4 min read Chinese
- humanities
- technology
- society
- ai