GPU broadcast regression with ArrayFuse on recent CUDA #1626

ChrisRackauckas · 2022-03-20T12:38:40Z

MWE:

using OrdinaryDiffEq, CUDA, Test
CUDA.allowscalar(false)
N = 256
# Define the initial condition as normal arrays
u0 = zeros(N, N, 3)
u0 .= 1.0
gu0 = CuArray(Float32.(u0))

# Define the discretized PDE as an ODE function
function f(du, u, p, t)
    du .= u
end
prob2 = ODEProblem(f, gu0, (0.0, 10.0))
solve(prob2, ORK256(), save_everystep=false, save_start=false, dt=0.01)

ChrisRackauckas · 2022-03-20T12:39:09Z

Here's a version without OrdinaryDiffEq.jl:

"""
	ArrayFuse{AT, T, P} <: AbstractArray{T, 1}

GPU Friendly type to wrap around two arrays - `visible` and `hidden`, for which when we `setindex!` some value `v` at index `i`
we get

visible[i] = p[1] * visible[i] + p[2] * v
hidden[i] = hidden[i] + p[3] * visible[i]

where p is a parameter tuple of size 3.
"""
struct ArrayFuse{AT,T,P} <: AbstractArray{T,1}
    visible::AT
    hidden::AT
    p::P
end

ArrayFuse(visible::AT, hidden::AT, p) where {AT} = ArrayFuse{AT,eltype(visible),typeof(p)}(visible, hidden, p)

@inline function Base.copyto!(af::ArrayFuse{AT,T,P}, src::Base.Broadcast.Broadcasted) where {AT,T,P}
    @. af.visible = af.p[1] * af.visible + af.p[2] * src
    @. af.hidden = af.hidden + af.p[3] * af.visible
end

@inline function Base.copyto!(af::ArrayFuse{AT,T,P}, src::AbstractArray) where {AT,T,P}
    @. af.visible = af.p[1] * af.visible + af.p[2] * src
    @. af.hidden = af.hidden + af.p[3] * af.visible
end

@inline function Base.copyto!(af::ArrayFuse{AT,T,P}, src::Base.Broadcast.Broadcasted) where {AT,T,P}
    @. af.visible = af.p[1] * af.visible + af.p[2] * src
    @. af.hidden = af.hidden + af.p[3] * af.visible
end

@inline function Base.copyto!(af::ArrayFuse{AT,T,P}, src::Base.Broadcast.Broadcasted{F1,Axes,F,Args}) where {AT,T,P,F1<:Base.Broadcast.AbstractArrayStyle{0},Axes,F,Args<:Tuple}
    @. af.visible = af.p[1] * af.visible + af.p[2] * src
    @. af.hidden = af.hidden + af.p[3] * af.visible
end

# not recommended but good to have
@inline function Base.getindex(af::ArrayFuse, index)
    return af.visible[index]
end

@inline function Base.setindex!(af::ArrayFuse, value, index)
    af.visible[index] = af.p[1] * af.visible[index] + af.p[2] * value
    af.hidden[index] = muladd(af.p[3], af.visible[index], af.hidden[index])
end

@inline Base.size(af::ArrayFuse) = length(af.visible)
@inline Base.axes(af::ArrayFuse) = axes(af.visible)

using CUDA
CUDA.allowscalar(false)
N = 256
# Define the initial condition as normal arrays
u0 = zeros(N, N, 3)
u0 .= 1.0
gu0 = CuArray(Float32.(u0))
tmp, u, a, b = [copy(gu0) for i in 1:4]
dt = 0.01

du = ArrayFuse(tmp, u, (a, dt, b))
du .= u

ERROR: This object is not a GPU array
Stacktrace:
 [1] error(s::String)
   @ Base .\error.jl:33
 [2] backend(#unused#::Type)
   @ GPUArrays C:\Users\accou\.julia\packages\GPUArrays\VNhDf\src\device\execution.jl:15
 [3] backend(x::ArrayFuse{CuArray{Float32, 3, CUDA.Mem.DeviceBuffer}, Float32, Tuple{CuArray{Float32, 3, CUDA.Mem.DeviceBuffer}, Float64, CuArray{Float32, 3, CUDA.Mem.DeviceBuffer}}})
   @ GPUArrays C:\Users\accou\.julia\packages\GPUArrays\VNhDf\src\device\execution.jl:16
 [4] _copyto!
   @ C:\Users\accou\.julia\packages\GPUArrays\VNhDf\src\host\broadcast.jl:73 [inlined]
 [5] materialize!
   @ C:\Users\accou\.julia\packages\GPUArrays\VNhDf\src\host\broadcast.jl:51 [inlined]
 [6] materialize!(dest::ArrayFuse{CuArray{Float32, 3, CUDA.Mem.DeviceBuffer}, Float32, Tuple{CuArray{Float32, 3, CUDA.Mem.DeviceBuffer}, Float64, CuArray{Float32, 3, CUDA.Mem.DeviceBuffer}}}, bc::Base.Broadcast.Broadcasted{CUDA.CuArrayStyle{3}, Nothing, typeof(identity), Tuple{CuArray{Float32, 3, CUDA.Mem.DeviceBuffer}}}) 
   @ Base.Broadcast .\broadcast.jl:868
 [7] top-level scope
   @ c:\Users\accou\OneDrive\Computer\Desktop\test.jl:329

ChrisRackauckas · 2022-03-20T12:45:30Z

@maleadt can you help us figure out what changed in CUDA broadcast so we can override this? I think the solution might be to override _copyto!?

maleadt · 2022-03-21T07:22:27Z

Maybe JuliaGPU/GPUArrays.jl#393?

ChrisRackauckas · 2022-03-27T16:11:40Z

MWE at JuliaGPU/GPUArrays.jl#404

Label tests broken due to #1626

Fixes JuliaGPU/GPUArrays.jl#404 Fixes #1626

ChrisRackauckas mentioned this issue Mar 20, 2022

Add fast broadcast and a proper test for #1615 #1622

Merged

ChrisRackauckas added a commit that referenced this issue Mar 27, 2022

Set test broken for GPU broadcast regression

c30055f

Label tests broken due to #1626

ChrisRackauckas mentioned this issue Mar 27, 2022

Set test broken for GPU broadcast regression #1635

Merged

ChrisRackauckas added a commit that referenced this issue May 15, 2022

Fix arrayfuse broadcast overload

d79a290

Fixes JuliaGPU/GPUArrays.jl#404 Fixes #1626

ChrisRackauckas mentioned this issue May 15, 2022

Fix arrayfuse broadcast overload #1663

Merged

ChrisRackauckas closed this as completed in #1663 May 15, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GPU broadcast regression with ArrayFuse on recent CUDA #1626

GPU broadcast regression with ArrayFuse on recent CUDA #1626

ChrisRackauckas commented Mar 20, 2022

ChrisRackauckas commented Mar 20, 2022 •

edited

Loading

ChrisRackauckas commented Mar 20, 2022

maleadt commented Mar 21, 2022

ChrisRackauckas commented Mar 27, 2022

GPU broadcast regression with ArrayFuse on recent CUDA #1626

GPU broadcast regression with ArrayFuse on recent CUDA #1626

Comments

ChrisRackauckas commented Mar 20, 2022

ChrisRackauckas commented Mar 20, 2022 • edited Loading

ChrisRackauckas commented Mar 20, 2022

maleadt commented Mar 21, 2022

ChrisRackauckas commented Mar 27, 2022

ChrisRackauckas commented Mar 20, 2022 •

edited

Loading