Replies: 1 comment
-
On AMD Ryzen 9 5950X 16-Core Processor (znver3) + RX6900XT + 128Go RAM@3600
./llamafile-0.8.6_UMA -m ./Meta-Llama-3-70B-Instruct.Q6_K.llamafile -n 16 \
--temp 0 -c 1024 -p "[INST]tu peux me faire un resumé en francais du texte suivant:
Maria Salomea Skłodowska naît à Varsovie, capitale du royaume de Pologne, fondé en 1815 par le congrès de Vienne au profit du tsar Alexandre et étroitement lié à l'Empire russe. À cette époque, à la suite de l'insurrection polonaise de 1861-1864, la Russie procède au transfert des ministères polonais de Varsovie à Saint-Pétersbourg et lance une politique de russification du royaume.
Son père, issu d'une famille noble (clan Dołęga), est professeur de mathématiques et de physique ; sa mère est institutrice. Avant Marie, ils ont eu trois filles et un fils : Zofia (1861-1876), Józef (1863-1937), Bronisława (Bronia) (1865-1939)6 et Helena (1866-1961).
En l’espace de deux années, elle perd sa sœur Zofia, morte du typhus en janvier 1876, et sa mère, qui succombe à la tuberculose le 9 mai 1878. Elle se réfugie alors dans les études où elle excelle dans toutes les matières, et où la note maximale lui est accordée. Elle obtient ainsi son diplôme de fin d’études secondaires avec la médaille d’or en 1883. Elle adhère à la doctrine positiviste d'Auguste Comte et rejoint l'Université volante, organisation clandestine qui pratique l'éducation des masses en polonais, en réaction à la politique de russification.
Marie Curie souhaiterait faire des études supérieures, mais cela est interdit aux femmes dans son pays natal. Lorsque sa sœur Bronia part à Paris étudier la médecine, Maria s'engage comme gouvernante dans une famille de province pour financer un projet similaire. À ce moment-là, elle a l'intention de revenir ensuite en Pologne pour enseigner, éventuellement dans le cadre de l'Université volante. Au bout de trois ans, elle rentre à Varsovie, où un cousin lui permet d'entrer dans un laboratoire
[/INST]"
llama_print_timings: load time = 18038.10 ms
llama_print_timings: sample time = 1.21 ms / 16 runs ( 0.08 ms per token, 13190.44 tokens per second)
llama_print_timings: prompt eval time = 46007.38 ms / 532 tokens ( 86.48 ms per token, 11.56 tokens per second)
llama_print_timings: eval time = 16943.58 ms / 15 runs ( 1129.57 ms per token, 0.89 tokens per second)
llama_print_timings: total time = 62958.29 ms / 547 tokens
./llamafile-0.8.6_UMA -m ./Meta-Llama-3-70B-Instruct.Q6_K.llamafile --gpu AMD --no-mmap --recompile -n 16 \
--temp 0 -c 1024 -p "[INST]tu peux me faire un resumé en francais du texte suivant:
Maria Salomea Skłodowska naît à Varsovie, capitale du royaume de Pologne, fondé en 1815 par le congrès de Vienne au profit du tsar Alexandre et étroitement lié à l'Empire russe. À cette époque, à la suite de l'insurrection polonaise de 1861-1864, la Russie procède au transfert des ministères polonais de Varsovie à Saint-Pétersbourg et lance une politique de russification du royaume.
Son père, issu d'une famille noble (clan Dołęga), est professeur de mathématiques et de physique ; sa mère est institutrice. Avant Marie, ils ont eu trois filles et un fils : Zofia (1861-1876), Józef (1863-1937), Bronisława (Bronia) (1865-1939)6 et Helena (1866-1961).
En l’espace de deux années, elle perd sa sœur Zofia, morte du typhus en janvier 1876, et sa mère, qui succombe à la tuberculose le 9 mai 1878. Elle se réfugie alors dans les études où elle excelle dans toutes les matières, et où la note maximale lui est accordée. Elle obtient ainsi son diplôme de fin d’études secondaires avec la médaille d’or en 1883. Elle adhère à la doctrine positiviste d'Auguste Comte et rejoint l'Université volante, organisation clandestine qui pratique l'éducation des masses en polonais, en réaction à la politique de russification.
Marie Curie souhaiterait faire des études supérieures, mais cela est interdit aux femmes dans son pays natal. Lorsque sa sœur Bronia part à Paris étudier la médecine, Maria s'engage comme gouvernante dans une famille de province pour financer un projet similaire. À ce moment-là, elle a l'intention de revenir ensuite en Pologne pour enseigner, éventuellement dans le cadre de l'Université volante. Au bout de trois ans, elle rentre à Varsovie, où un cousin lui permet d'entrer dans un laboratoire
[/INST]"
llama_print_timings: load time = 16544.80 ms
llama_print_timings: sample time = 0.85 ms / 16 runs ( 0.05 ms per token, 18823.53 tokens per second)
llama_print_timings: prompt eval time = 20934.45 ms / 532 tokens ( 39.35 ms per token, 25.41 tokens per second)
llama_print_timings: eval time = 32010.00 ms / 15 runs ( 2134.00 ms per token, 0.47 tokens per second)
llama_print_timings: total time = 52950.65 ms / 547 tokens For that you need this "patch": #468 So for best we need some more work: have the possibility to use the GPU only prompt eval. > adding -ngl 14
llama_print_timings: load time = 12012.66 ms
llama_print_timings: sample time = 1.15 ms / 16 runs ( 0.07 ms per token, 13913.04 tokens per second)
llama_print_timings: prompt eval time = 6785.10 ms / 532 tokens ( 12.75 ms per token, 78.41 tokens per second)
llama_print_timings: eval time = 14486.76 ms / 15 runs ( 965.78 ms per token, 1.04 tokens per second)
llama_print_timings: total time = 21279.89 ms / 547 tokens > adding -ngl 21
llama_print_timings: load time = 11682.34 ms
llama_print_timings: sample time = 1.20 ms / 16 runs ( 0.07 ms per token, 13389.12 tokens per second)
llama_print_timings: prompt eval time = 6440.90 ms / 532 tokens ( 12.11 ms per token, 82.60 tokens per second)
llama_print_timings: eval time = 13201.38 ms / 15 runs ( 880.09 ms per token, 1.14 tokens per second)
llama_print_timings: total time = 19649.52 ms / 547 tokens |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
I've seen the pretty amazing results others have been posting using llamafile even for large models... My system is obviously not even half of what Justine's is, so I'm not expecting to get 80 t/s with trying to run LLama3 70B...
With linux with
i9-13900K
w/128GB RAM
andRadeon RX 6900 XT
, I have seen performance of between 0.75 and 0.85 tokens per/second (depending on if I set-t
> nproc/2) Llamafile0.73/LLama3 70B. I'm wondering if this is my ceiling or if there's something else I can tweak to get even a handful of tokens/s from this set-up.This is the command I'm running with:
nix-shell -p podman fuse-overlayfs --run "podman run --rm -ti --device=/dev/kfd --device=/dev/dri -e DISPLAY=${DISPLAY} -v /tmp/.X11-unix/X0:/tmp/.X11-unix/X0 -v /home:/home -p "8080:8080" docker.io/rocm/pytorch bash ~/Downloads/Meta-Llama-3-70B-Instruct.Q8_0.llamafile -ngl 14 --host "0.0.0.0""
What kind of performance half others been seeing with mid hardware like mine? Anything I should be doing that might help improve throughput?
Beta Was this translation helpful? Give feedback.
All reactions