JGKYM

Recent Notes

Stirling's Approximation
Sep 11, 2025
UTF-8 Encoding
Aug 05, 2025
Unicode
Jun 30, 2025
Understanding Debouncing in Programming
Jun 19, 2025
Resolving CUDA Initialization Errors with Accelerate in Kaggle Notebooks
Jun 18, 2025

See 29 more →

Home

❯

Notes

❯

Bradley Terry Model Is Just A Logistic Function

Bradley-Terry Model Is Just A Logistic Function

May 25, 20251 min read

alignment
reinforcement-learning
dpo

p^{*} (y_{1} > y_{2} ∣ x) = \frac{exp ( r ^{*} ( x , y _{1} ))}{exp ( r ^{*} ( x , y _{1} )) + exp ( r ^{*} ( x , y _{2} ))} = σ (r^{*} (x, y_{1}) - r^{*} (x, y_{2}))

(Rafailov et al., 2024, pp. 3–4)

Reference

Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2024). Direct Preference Optimization: Your Language Model Is Secretly a Reward Model. arXiv. https://doi.org/10.48550/arXiv.2305.18290

Graph View

GitHub

JGKYM

Recent Notes

Stirling's Approximation

UTF-8 Encoding

Unicode

Understanding Debouncing in Programming

Resolving CUDA Initialization Errors with Accelerate in Kaggle Notebooks

Bradley-Terry Model Is Just A Logistic Function

Reference

Graph View