perf: avoid double function call in ReverseDiff `value_and_gradient` #729

gdalle · 2025-02-14T17:53:44Z

Personal musings: The behavior of ReverseDiff is very confusing, even on ImmutableDiffResult. I encountered a Heisenbug which seems to depend on the compilation path (disappears when I add a print statement), where value_and_gradient! suddenly becomes incorrect when called inside value_gradient_and_hessian!. But only for a compiled tape. And the :gradient tests for value_and_gradient! still pass. What a mess.

codecov · 2025-02-14T18:05:46Z

Codecov Report

All modified and coverable lines are covered by tests ✅

Project coverage is 97.92%. Comparing base (98e6e5f) to head (e59205d).
Report is 1 commits behind head on main.

Additional details and impacted files

@@            Coverage Diff             @@
##             main     #729      +/-   ##
==========================================
- Coverage   97.93%   97.92%   -0.01%     
==========================================
  Files         122      122              
  Lines        6386     6372      -14     
==========================================
- Hits         6254     6240      -14     
  Misses        132      132

Flag	Coverage Δ
DI	`98.96% <100.00%> (-0.01%)`	⬇️
DIT	`95.71% <ø> (ø)`

Flags with carried forward coverage won't be shown. Click here to find out more.

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

gdalle · 2025-02-14T22:42:48Z

So, in the current state of the PR, value_and_gradient! works but not alongside a Hessian computation... unless we print something? I'm going crazy.

julia> DifferentiationInterface.value_gradient_and_hessian!(
           f,
           zeros(2),
           zeros(2, 2),
           SecondOrder(AutoFiniteDiff(), AutoReverseDiff(; compile=true)),
           ones(2),
       )
(0.0, [2.0, 2.0], [2.0 0.0; 0.0 2.0])

julia> DifferentiationInterface.value_gradient_and_hessian!(
           f,
           zeros(2),
           zeros(2, 2),
           SecondOrder(AutoFiniteDiff(), AutoReverseDiff(; compile=true)),
           ones(2),
       )
(0.0, [2.0, 2.0], [2.0 0.0; 0.0 2.0])

julia> using DifferentiationInterface, FiniteDiff, ReverseDiff

julia> DifferentiationInterface.value_and_gradient!(
           f,
           zeros(2),
           AutoReverseDiff(; compile=true),
           ones(2),
       )
(2.0, [2.0, 2.0])

julia> DifferentiationInterface.value_gradient_and_hessian!(
           f,
           zeros(2),
           zeros(2, 2),
           SecondOrder(AutoFiniteDiff(), AutoReverseDiff(; compile=true)),
           ones(2),
       )
(0.0, [2.0, 2.0], [2.0 0.0; 0.0 2.0])

julia> # now we just add a log

julia> DifferentiationInterface.value_and_gradient!(
           f,
           zeros(2),
           AutoReverseDiff(; compile=true),
           ones(2),
       )
[ Info: I'm here
(2.0, [2.0, 2.0])

julia> DifferentiationInterface.value_gradient_and_hessian!(
           f,
           zeros(2),
           zeros(2, 2),
           SecondOrder(AutoFiniteDiff(), AutoReverseDiff(; compile=true)),
           ones(2),
       )
[ Info: I'm here
(2.0, [2.0, 2.0], [2.0 0.0; 0.0 2.0])

gdalle · 2025-02-14T22:55:10Z

I further boiled it down to whether I do y, grad or y, _ in the assignment. Still have no clue what's going on.

EDIT: pure-ReverseDiff example available at JuliaDiff/ReverseDiff.jl#269

using DifferentiationInterface  # version from this branch
import DifferentiationInterface as DI
using ReverseDiff: ReverseDiff

backend = AutoReverseDiff(; compile=true)
f(x) = sum(abs2, x)
x = ones(2)

prep = prepare_gradient(f, backend, zero(x))

function value_and_gradient_nested!(f, grad, prep, backend, x)
    y, _ = value_and_gradient!(f, grad, prep, backend, x)
    return y, grad
end

julia> value_and_gradient!(f, zeros(2), prep, backend, x)
(2.0, [2.0, 2.0])

julia> value_and_gradient_nested!(f, zeros(2), prep, backend, x)  # wrong
(0.0, [2.0, 2.0])

This behavior only happens with the compiled tape mode of ReverseDiff. I think it might be because the compiler struggles to figure out that ReverseDiff mutates the value of y in the MutableDiffResult?

perf: avoid double function call in ReverseDiff value_and_gradient

2cae022

gdalle mentioned this pull request Feb 14, 2025

Remove LogDensityProblemsAD; wrap adtype in LogDensityFunction TuringLang/DynamicPPL.jl#806

Merged

gdalle added 2 commits February 14, 2025 19:14

Fixes

460921a

Fix hessian

1983431

gdalle marked this pull request as draft February 14, 2025 21:16

Separate completely

de29ed4

gdalle mentioned this pull request Feb 15, 2025

Value is sometimes not set when using DiffResults JuliaDiff/ReverseDiff.jl#269

Open

Replace DR.gradient(result) with grad

e59205d

gdalle marked this pull request as ready for review February 15, 2025 11:57

gdalle merged commit 3417ff5 into main Feb 16, 2025
72 checks passed

gdalle deleted the gd/rev branch February 16, 2025 16:38

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

perf: avoid double function call in ReverseDiff `value_and_gradient` #729

perf: avoid double function call in ReverseDiff `value_and_gradient` #729

gdalle commented Feb 14, 2025 •

edited

Loading

codecov bot commented Feb 14, 2025 •

edited

Loading

gdalle commented Feb 14, 2025

gdalle commented Feb 14, 2025 •

edited

Loading

perf: avoid double function call in ReverseDiff value_and_gradient #729

perf: avoid double function call in ReverseDiff value_and_gradient #729

Conversation

gdalle commented Feb 14, 2025 • edited Loading

codecov bot commented Feb 14, 2025 • edited Loading

Codecov Report

gdalle commented Feb 14, 2025

gdalle commented Feb 14, 2025 • edited Loading

perf: avoid double function call in ReverseDiff `value_and_gradient` #729

perf: avoid double function call in ReverseDiff `value_and_gradient` #729

gdalle commented Feb 14, 2025 •

edited

Loading

codecov bot commented Feb 14, 2025 •

edited

Loading

gdalle commented Feb 14, 2025 •

edited

Loading