-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathindex.html
1686 lines (1378 loc) · 294 KB
/
index.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<!DOCTYPE html><html lang="zh_CN" data-theme="light"><head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no"><title>青稞社区 - 青年AI研究员Idea加油站,AI开发者的新能源充电站</title><meta name="author" content="青稞"><meta name="copyright" content="青稞"><meta name="format-detection" content="telephone=no"><meta name="theme-color" content="#f7f9fe"><meta name="mobile-web-app-capable" content="yes"><meta name="apple-touch-fullscreen" content="yes"><meta name="apple-mobile-web-app-title" content="青稞社区"><meta name="application-name" content="青稞社区"><meta name="apple-mobile-web-app-capable" content="yes"><meta name="apple-mobile-web-app-status-bar-style" content="#f7f9fe"><meta property="og:type" content="website"><meta property="og:title" content="青稞社区"><meta property="og:url" content="https://github.com/qingkelab/index.html"><meta property="og:site_name" content="青稞社区"><meta property="og:description"><meta property="og:locale" content="zh_CN"><meta property="og:image" content="https://github.com/qingkelab/%E9%9D%92%E7%A8%9E.jpg"><meta property="article:author" content="青稞"><meta property="article:tag"><meta name="twitter:card" content="summary"><meta name="twitter:image" content="https://github.com/qingkelab/%E9%9D%92%E7%A8%9E.jpg"><meta name="description"><link rel="shortcut icon" href="/%E9%9D%92%E7%A8%9E.jpg"><link rel="canonical" href="https://github.com/qingkelab/"><link rel="preconnect" href="//cdn.cbd.int"/><meta name="google-site-verification" content="xxx"/><meta name="baidu-site-verification" content="code-xxx"/><meta name="msvalidate.01" content="xxx"/><link rel="stylesheet" href="/css/index.css"><link rel="stylesheet" href="https://cdn.cbd.int/[email protected]/dist/snackbar.min.css" media="print" onload="this.media='all'"><link rel="stylesheet" href="https://cdn.cbd.int/@fancyapps/[email protected]/dist/fancybox/fancybox.css" media="print" onload="this.media='all'"><link rel="stylesheet" href="https://npm.elemecdn.com/[email protected]/swiper/swiper.min.css" media="print" onload="this.media='all'"><script>const GLOBAL_CONFIG = {
linkPageTop: undefined,
peoplecanvas: undefined,
postHeadAiDescription: undefined,
diytitle: {"enable":true,"leaveTitle":"w(゚Д゚)w 不要走!再看看嘛!","backTitle":"♪(^∇^*)欢迎肥来!"},
LA51: undefined,
greetingBox: {"enable":true,"default":"晚上好👋","list":[{"greeting":"晚安😴","startTime":0,"endTime":5},{"greeting":"早上好鸭👋, 祝你一天好心情!","startTime":6,"endTime":9},{"greeting":"上午好👋, 状态很好,鼓励一下~","startTime":10,"endTime":10},{"greeting":"11点多啦, 在坚持一下就吃饭啦~","startTime":11,"endTime":11},{"greeting":"午安👋, 宝贝","startTime":12,"endTime":14},{"greeting":"🌈充实的一天辛苦啦!","startTime":14,"endTime":18},{"greeting":"19点喽, 奖励一顿丰盛的大餐吧🍔。","startTime":19,"endTime":19},{"greeting":"晚上好👋, 在属于自己的时间好好放松😌~","startTime":20,"endTime":24}]},
twikooEnvId: '',
commentBarrageConfig:undefined,
root: '/',
preloader: {"source":3},
friends_vue_info: undefined,
navMusic: false,
mainTone: undefined,
authorStatus: {"skills":null},
algolia: undefined,
localSearch: undefined,
translate: undefined,
noticeOutdate: undefined,
highlight: {"plugin":"highlight.js","highlightCopy":true,"highlightLang":true,"highlightHeightLimit":330},
copy: {
success: '复制成功',
error: '复制错误',
noSupport: '浏览器不支持'
},
relativeDate: {
homepage: false,
simplehomepage: false,
post: false
},
runtime: '天',
date_suffix: {
just: '刚刚',
min: '分钟前',
hour: '小时前',
day: '天前',
month: '个月前'
},
copyright: {"copy":true,"copyrightEbable":false,"limitCount":50,"languages":{"author":"作者: 青稞","link":"链接: ","source":"来源: 青稞社区","info":"著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。","copySuccess":"复制成功,复制和转载请标注本文地址"}},
lightbox: 'fancybox',
Snackbar: {"chs_to_cht":"你已切换为繁体","cht_to_chs":"你已切换为简体","day_to_night":"你已切换为深色模式","night_to_day":"你已切换为浅色模式","bgLight":"#425AEF","bgDark":"#1f1f1f","position":"top-center"},
source: {
justifiedGallery: {
js: 'https://cdn.cbd.int/[email protected]/dist/fjGallery.min.js',
css: 'https://cdn.cbd.int/[email protected]/dist/fjGallery.css'
}
},
isPhotoFigcaption: false,
islazyload: true,
isAnchor: false,
shortcutKey: undefined,
autoDarkmode: true
}</script><script id="config-diff">var GLOBAL_CONFIG_SITE = {
configTitle: '青稞社区',
title: '青稞社区',
postAI: '',
pageFillDescription: '',
isPost: false,
isHome: true,
isHighlightShrink: false,
isToc: false,
postUpdate: '2025-03-24 00:28:32',
postMainColor: '',
}</script><noscript><style type="text/css">
#nav {
opacity: 1
}
.justified-gallery img {
opacity: 1
}
#recent-posts time,
#post-meta time {
display: inline !important
}
</style></noscript><script>(win=>{
win.saveToLocal = {
set: (key, value, ttl) => {
if (ttl === 0) return
const now = Date.now()
const expiry = now + ttl * 86400000
const item = {
value,
expiry
}
localStorage.setItem(key, JSON.stringify(item))
},
get: key => {
const itemStr = localStorage.getItem(key)
if (!itemStr) {
return undefined
}
const item = JSON.parse(itemStr)
const now = Date.now()
if (now > item.expiry) {
localStorage.removeItem(key)
return undefined
}
return item.value
}
}
win.getScript = (url, attr = {}) => new Promise((resolve, reject) => {
const script = document.createElement('script')
script.src = url
script.async = true
script.onerror = reject
script.onload = script.onreadystatechange = function() {
const loadState = this.readyState
if (loadState && loadState !== 'loaded' && loadState !== 'complete') return
script.onload = script.onreadystatechange = null
resolve()
}
Object.keys(attr).forEach(key => {
script.setAttribute(key, attr[key])
})
document.head.appendChild(script)
})
win.getCSS = (url, id = false) => new Promise((resolve, reject) => {
const link = document.createElement('link')
link.rel = 'stylesheet'
link.href = url
if (id) link.id = id
link.onerror = reject
link.onload = link.onreadystatechange = function() {
const loadState = this.readyState
if (loadState && loadState !== 'loaded' && loadState !== 'complete') return
link.onload = link.onreadystatechange = null
resolve()
}
document.head.appendChild(link)
})
win.activateDarkMode = () => {
document.documentElement.setAttribute('data-theme', 'dark')
if (document.querySelector('meta[name="theme-color"]') !== null) {
document.querySelector('meta[name="theme-color"]').setAttribute('content', '#18171d')
}
}
win.activateLightMode = () => {
document.documentElement.setAttribute('data-theme', 'light')
if (document.querySelector('meta[name="theme-color"]') !== null) {
document.querySelector('meta[name="theme-color"]').setAttribute('content', '#f7f9fe')
}
}
const t = saveToLocal.get('theme')
const isDarkMode = window.matchMedia('(prefers-color-scheme: dark)').matches
const isLightMode = window.matchMedia('(prefers-color-scheme: light)').matches
const isNotSpecified = window.matchMedia('(prefers-color-scheme: no-preference)').matches
const hasNoSupport = !isDarkMode && !isLightMode && !isNotSpecified
if (t === undefined) {
if (isLightMode) activateLightMode()
else if (isDarkMode) activateDarkMode()
else if (isNotSpecified || hasNoSupport) {
const now = new Date()
const hour = now.getHours()
const isNight = hour <= 6 || hour >= 18
isNight ? activateDarkMode() : activateLightMode()
}
window.matchMedia('(prefers-color-scheme: dark)').addListener(e => {
if (saveToLocal.get('theme') === undefined) {
e.matches ? activateDarkMode() : activateLightMode()
}
})
} else if (t === 'light') activateLightMode()
else activateDarkMode()
const asideStatus = saveToLocal.get('aside-status')
if (asideStatus !== undefined) {
if (asideStatus === 'hide') {
document.documentElement.classList.add('hide-aside')
} else {
document.documentElement.classList.remove('hide-aside')
}
}
const detectApple = () => {
if(/iPad|iPhone|iPod|Macintosh/.test(navigator.userAgent)){
document.documentElement.classList.add('apple')
}
}
detectApple()
})(window)</script><meta name="generator" content="Hexo 7.0.0"></head><body data-type="anzhiyu"><div id="web_bg"></div><div id="an_music_bg"></div><div id="loading-box" onclick="document.getElementById("loading-box").classList.add("loaded")"><div class="loading-bg"><img class="loading-img nolazyload" alt="加载头像" src="/%E9%9D%92%E7%A8%9E.jpg"/><div class="loading-image-dot"></div></div></div><script>const preloader = {
endLoading: () => {
document.getElementById('loading-box').classList.add("loaded");
},
initLoading: () => {
document.getElementById('loading-box').classList.remove("loaded")
}
}
window.addEventListener('load',()=> { preloader.endLoading() })
setTimeout(function(){preloader.endLoading();},10000)
if (true) {
document.addEventListener('pjax:send', () => { preloader.initLoading() })
document.addEventListener('pjax:complete', () => { preloader.endLoading() })
}</script><link rel="stylesheet" href="https://cdn.cbd.int/[email protected]/progress_bar/progress_bar.css"/><script async="async" src="https://cdn.cbd.int/[email protected]/pace.min.js" data-pace-options="{ "restartOnRequestAfter":false,"eventLag":false}"></script><script>function initMourn() {
const date = new Date();
const today = (date.getMonth() + 1) + "-" + date.getDate()
const mourn_days = ["4-5","5-12","7-7","9-18","12-13"]
if (mourn_days.includes(today)) {
document.documentElement.style.filter = "grayscale(1)";
}}
initMourn();</script><div class="page" id="body-wrap"><header class="not-top-img" id="page-header"><nav id="nav"><div id="nav-group"><span id="blog_name"><a id="site-name" href="/" accesskey="h"><div class="title">青稞社区</div><i class="anzhiyufont anzhiyu-icon-house-chimney"></i></a></span><div class="mask-name-container"><div id="name-container"><a id="page-name" href="javascript:anzhiyu.scrollToDest(0, 500)">PAGE_NAME</a></div></div><div id="menus"><div class="menus_items"><div class="menus_item"><a class="site-page faa-parent animated-hover" target="_blank" rel="noopener" href="https://qingkelab.github.io/talks/link/"><span> 青稞's</span></a></div><div class="menus_item"><a class="site-page faa-parent animated-hover" target="_blank" rel="noopener" href="https://qingkelab.github.io/talks"><span> 青稞Talk</span></a></div><div class="menus_item"><a class="site-page faa-parent animated-hover" target="_blank" rel="noopener" href="https://e1r5m17x3ld.feishu.cn/wiki/SyGlwuAjriVCOokxcXRckwC7nYU?from=from_copylink"><span> 关于</span></a></div></div></div><div id="nav-right"><div class="nav-button" id="randomPost_button"><a class="site-page" onclick="toRandomPost()" title="随机前往一个文章" href="javascript:void(0);"><i class="anzhiyufont anzhiyu-icon-dice"></i></a></div><input id="center-console" type="checkbox"/><label class="widget" for="center-console" title="中控台" onclick="anzhiyu.switchConsole();"><i class="left"></i><i class="widget center"></i><i class="widget right"></i></label><div id="console"><div class="console-card-group-reward"><ul class="reward-all console-card"><li class="reward-item"><a href="https://npm.elemecdn.com/[email protected]/img/post/common/qrcode-weichat.png" target="_blank"><img class="post-qr-code-img" alt="微信" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://npm.elemecdn.com/[email protected]/img/post/common/qrcode-weichat.png"/></a><div class="post-qr-code-desc">微信</div></li></ul></div><div class="console-card-group"><div class="console-card-group-left"><div class="console-card" id="card-newest-comments"><div class="card-content"><div class="author-content-item-tips">互动</div><span class="author-content-item-title"> 最新评论</span></div><div class="aside-list"><span>正在加载中...</span></div></div></div><div class="console-card-group-right"><div class="console-card tags"><div class="card-content"><div class="author-content-item-tips">兴趣点</div><span class="author-content-item-title">寻找你感兴趣的领域</span><div class="card-tags"><div class="item-headline"></div><div class="card-tag-cloud"><a href="/tags/5%E5%88%86%E9%92%9F%E6%9E%81%E5%87%8F%E9%98%85%E8%AF%BB/" style="font-size: 1.05rem;">5分钟极减阅读<sup>2</sup></a><a href="/tags/AIGC/" style="font-size: 1.05rem;">AIGC<sup>4</sup></a><a href="/tags/Anwen-Hu/" style="font-size: 1.05rem;">Anwen Hu<sup>2</sup></a><a href="/tags/Bohan-Zhuang/" style="font-size: 1.05rem;">Bohan Zhuang<sup>1</sup></a><a href="/tags/DeepSeek/" style="font-size: 1.05rem;">DeepSeek<sup>2</sup></a><a href="/tags/Dong-Zhen/" style="font-size: 1.05rem;">Dong Zhen<sup>1</sup></a><a href="/tags/LLAMA-3/" style="font-size: 1.05rem;">LLAMA-3<sup>1</sup></a><a href="/tags/LLM/" style="font-size: 1.05rem;">LLM<sup>35</sup></a><a href="/tags/MLLM/" style="font-size: 1.05rem;">MLLM<sup>3</sup></a><a href="/tags/OpenAI/" style="font-size: 1.05rem;">OpenAI<sup>6</sup></a><a href="/tags/RL/" style="font-size: 1.05rem;">RL<sup>2</sup></a><a href="/tags/TAMU/" style="font-size: 1.05rem;">TAMU<sup>1</sup></a><a href="/tags/Transformer/" style="font-size: 1.05rem;">Transformer<sup>1</sup></a><a href="/tags/Weekly/" style="font-size: 1.05rem;">Weekly<sup>4</sup></a><a href="/tags/yearn/" style="font-size: 1.05rem;">yearn<sup>1</sup></a><a href="/tags/%E3%80%8A%E4%BB%8E%E5%88%86%E5%B8%83%E5%88%B0%E7%94%9F%E6%88%90%E3%80%8B%E4%B8%93%E9%A2%98/" style="font-size: 1.05rem;">《从分布到生成》专题<sup>2</sup></a><a href="/tags/%E5%87%8F%E8%AE%BA/" style="font-size: 1.05rem;">减论<sup>2</sup></a><a href="/tags/%E5%87%8F%E8%AE%BA%E7%B3%BB%E5%88%97%E4%B8%93%E6%A0%8F/" style="font-size: 1.05rem;">减论系列专栏<sup>2</sup></a><a href="/tags/%E5%8D%97%E5%BC%80%E5%A4%A7%E5%AD%A6/" style="font-size: 1.05rem;">南开大学<sup>4</sup></a><a href="/tags/%E5%90%88%E6%88%90%E6%95%B0%E6%8D%AE/" style="font-size: 1.05rem;">合成数据<sup>2</sup></a><a href="/tags/%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90/" style="font-size: 1.05rem;">图像生成<sup>1</sup></a><a href="/tags/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/" style="font-size: 1.05rem;">多模态大模型<sup>4</sup></a><a href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/" style="font-size: 1.05rem;">大模型<sup>6</sup></a><a href="/tags/%E5%BC%A0%E4%BF%8A%E6%9E%97/" style="font-size: 1.05rem;">张俊林<sup>3</sup></a><a href="/tags/%E6%8E%A8%E7%90%86%E5%A4%A7%E6%A8%A1%E5%9E%8B/" style="font-size: 1.05rem;">推理大模型<sup>1</sup></a><a href="/tags/%E6%96%87%E6%A1%A3%E5%A4%84%E7%90%86/" style="font-size: 1.05rem;">文档处理<sup>1</sup></a><a href="/tags/%E6%9D%8E%E7%BF%94/" style="font-size: 1.05rem;">李翔<sup>4</sup></a><a href="/tags/%E6%A8%A1%E5%9E%8B%E5%8E%8B%E7%BC%A9/" style="font-size: 1.05rem;">模型压缩<sup>1</sup></a><a href="/tags/%E6%B5%99%E6%B1%9F%E5%A4%A7%E5%AD%A6/" style="font-size: 1.05rem;">浙江大学<sup>3</sup></a><a href="/tags/%E6%B6%82%E6%AD%A3%E4%B8%AD/" style="font-size: 1.05rem;">涂正中<sup>1</sup></a><a href="/tags/%E6%BD%98%E6%A2%93%E6%AD%A3/" style="font-size: 1.05rem;">潘梓正<sup>1</sup></a><a href="/tags/%E7%8E%8B%E6%AC%A2/" style="font-size: 1.05rem;">王欢<sup>1</sup></a><a href="/tags/%E7%94%B3%E5%8D%9A/" style="font-size: 1.05rem;">申博<sup>1</sup></a><a href="/tags/%E7%AE%97%E6%B3%95%E5%AE%9E%E4%B9%A0%E7%94%9F/" style="font-size: 1.05rem;">算法实习生<sup>1</sup></a><a href="/tags/%E8%8E%AB%E7%BA%B3%E4%BB%80%E5%A4%A7%E5%AD%A6/" style="font-size: 1.05rem;">莫纳什大学<sup>2</sup></a><a href="/tags/%E8%A5%BF%E6%B9%96%E5%A4%A7%E5%AD%A6/" style="font-size: 1.05rem;">西湖大学<sup>1</sup></a><a href="/tags/%E8%A7%86%E8%A7%89%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B/" style="font-size: 1.05rem;">视觉生成模型<sup>1</sup></a><a href="/tags/%E8%B5%B5%E9%89%B4/" style="font-size: 1.05rem;">赵鉴<sup>1</sup></a><a href="/tags/%E9%98%BF%E9%87%8CQwen/" style="font-size: 1.05rem;">阿里Qwen<sup>1</sup></a><a href="/tags/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E9%80%9A%E4%B9%89%E5%AE%9E%E9%AA%8C%E5%AE%A4%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E6%99%BA%E8%83%BD%E5%9B%A2%E9%98%9F/" style="font-size: 1.05rem;">阿里巴巴通义实验室自然语言智能团队<sup>1</sup></a></div></div><hr/></div></div><div class="console-card history"><div class="item-headline"><i class="anzhiyufont anzhiyu-icon-box-archiv"></i><span>文章</span></div><div class="card-archives"><div class="item-headline"><i class="anzhiyufont anzhiyu-icon-archive"></i><span>归档</span><a class="card-more-btn" href="/archives/" title="查看更多">
<i class="anzhiyufont anzhiyu-icon-angle-right"></i></a></div><ul class="card-archive-list"><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2025/03/"><span class="card-archive-list-date">三月 2025</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">3</span><span>篇</span></div></a></li><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2025/02/"><span class="card-archive-list-date">二月 2025</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">3</span><span>篇</span></div></a></li><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2025/01/"><span class="card-archive-list-date">一月 2025</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">6</span><span>篇</span></div></a></li><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2024/12/"><span class="card-archive-list-date">十二月 2024</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">7</span><span>篇</span></div></a></li><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2024/11/"><span class="card-archive-list-date">十一月 2024</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">11</span><span>篇</span></div></a></li><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2024/10/"><span class="card-archive-list-date">十月 2024</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">6</span><span>篇</span></div></a></li><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2024/09/"><span class="card-archive-list-date">九月 2024</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">13</span><span>篇</span></div></a></li><li class="card-archive-list-item"><a class="card-archive-list-link" href="/archives/2024/08/"><span class="card-archive-list-date">八月 2024</span><div class="card-archive-list-count-group"><span class="card-archive-list-count">4</span><span>篇</span></div></a></li></ul></div><hr/></div></div></div><div class="button-group"><div class="console-btn-item"><a class="darkmode_switchbutton" title="显示模式切换" href="javascript:void(0);"><i class="anzhiyufont anzhiyu-icon-moon"></i></a></div><div class="console-btn-item" id="consoleHideAside" onclick="anzhiyu.hideAsideBtn()" title="边栏显示控制"><a class="asideSwitch"><i class="anzhiyufont anzhiyu-icon-arrows-left-right"></i></a></div></div><div class="console-mask" onclick="anzhiyu.hideConsole()" href="javascript:void(0);"></div></div><div class="nav-button" id="nav-totop"><a class="totopbtn" href="javascript:void(0);"><i class="anzhiyufont anzhiyu-icon-arrow-up"></i><span id="percent" onclick="anzhiyu.scrollToDest(0,500)">0</span></a></div><div id="toggle-menu"><a class="site-page" href="javascript:void(0);" title="切换"><i class="anzhiyufont anzhiyu-icon-bars"></i></a></div></div></div></nav></header><main id="blog-container"><div class="bbTimeList container" id="bbTimeList"><a class="bber-logo fontbold" onclick="pjax.loadUrl("/essay/");" title="直播预告" target="_blank" rel="noopener" href="https://qingkelab.github.io/talks" style="width: 150px; display: inline-block; text-align: left;">🔥直播预告:</a><div class="swiper-container swiper-no-swiping essay_bar_swiper_container" id="bbtalk" tabindex="-1"><div class="swiper-wrapper" id="bber-talk" onclick="pjax.loadUrl("/essay/");"><a class="li-style swiper-slide" target="_blank" rel="noopener" href="https://qingkelab.github.io/talks">2025/3/22 11:00——COAT:显存高效的 FP8 训练,实现高效深度学习 | 加州大学伯克利分校计算机科学博士生席浩诚</a></div></div></div><script src="https://npm.elemecdn.com/[email protected]/swiper/swiper.min.js"></script><div id="home_top"><div class="swiper_container_card" style="height: auto;width: 100%"><div id="bannerGroup"><div id="random-banner"><div class="banners-title"><div class="banners-title-big">青稞社区</div><div class="banners-title-big"></div><div class="banners-title-small"></div></div><a id="random-hover" href="javascript:toRandomPost()"><i class="anzhiyufont anzhiyu-icon-paper-plane"></i><div class="bannerText">欢迎加入青稞社区<i class="anzhiyufont anzhiyu-icon-arrow-right"></i></div></a></div><div class="categoryGroup"><div class="categoryItem" style="box-shadow:var(--anzhiyu-shadow-blue)"><a class="categoryButton blue" href="/categories/AIGC/"><span class="categoryButtonText">AIGC</span><i class="anzhiyufont anzhiyu-icon-dove"></i></a></div><div class="categoryItem" style="box-shadow:var(--anzhiyu-shadow-green)"><a class="categoryButton green" href="/categories/LLM/"><span class="categoryButtonText">LLM</span><i class="anzhiyufont anzhiyu-icon-fire"></i></a></div><div class="categoryItem" style="box-shadow:var(--anzhiyu-shadow-red)"><a class="categoryButton red" href="/categories/%E6%8B%9B%E8%81%98/"><span class="categoryButtonText">招聘</span><i class="anzhiyufont anzhiyu-icon-book"></i></a></div></div></div><div id="swiper_container_blog"><div class="blog-slider swiper-container-fade swiper-container-horizontal" id="swiper_container"><div class="blog-slider__wrp swiper-wrapper" style="transition-duration: 0ms;"><div class="blog-slider__item swiper-slide" style="width: 750px; opacity: 1; transform: translate3d(0px, 0px, 0px); transition-duration: 0ms;"><a class="blog-slider__img" href="LLM/2024-09-23/" title="万字长文推演OpenAI o1 self-play RL 技术路线"><img width="48" height="48" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic4.zhimg.com/80/v2-8ba95e688fb718ba5d9e4d5cbee58c9b_720w.webp" alt="图片" onerror="this.src=undefined; this.onerror = null;"></a><div class="blog-slider__content"><span class="blog-slider__code">2024-09-18</span><a class="blog-slider__title" href="LLM/2024-09-23/" alt="万字长文推演OpenAI o1 self-play RL 技术路线">万字长文推演OpenAI o1 self-play RL 技术路线</a><div class="blog-slider__text">
作者:曹宇,阿里巴巴集团 · 大模型练习生,AI 系统及算法方向
原文:https://zhuanlan.zhihu.com/p/720106482
OpenAI的self-play
RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩,同时提出了train-time
compute和test-time compute两个全新的RL scaling
law。作为领域博主,在时效性方面肯定卷不过其他营销号了,所以这次准备了大概一万字的内容,彻底深入分析并推演一遍其中的相关技术细节。
o1,而今迈步从头越
首先要说一下,o1是一个多模态模型,很多人包括 Jim Fan
都忽略了这一点:
因此他继续叫做o,作为omni系列是没有任何疑问的。只不过这次发布是过于低调了,很多人都没有注意到这个拉爆了所有其他多模态框架的78.1分。
那么这个o1,说明这个技术路线就是一个全新的模型pipeline弄出来的了。作为一个全新的多模态Self-play
RL模型,首秀的成绩还是相当不错的。虽然现在评价该self-play方法是否能够泛化至多模态还 ...</div><a class="blog-slider__button" href="LLM/2024-09-23/" alt="万字长文推演OpenAI o1 self-play RL 技术路线">详情 </a></div></div><div class="blog-slider__item swiper-slide" style="width: 750px; opacity: 1; transform: translate3d(0px, 0px, 0px); transition-duration: 0ms;"><a class="blog-slider__img" href="LLM/2024-09-24/" title="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术"><img width="48" height="48" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://qingkelab.github.io/img/zhibo.gif" alt="图片" onerror="this.src=undefined; this.onerror = null;"></a><div class="blog-slider__content"><span class="blog-slider__code">2024-09-23</span><a class="blog-slider__title" href="LLM/2024-09-24/" alt="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术">加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术</a><div class="blog-slider__text">青稞社区
青年AI研究员idea加油站,AI开发者的新能源充电桩!
青稞AI技术交流群
长案扫码添加青稞小助手
备注:姓名-学校/公司-学历/职位-研究领域(如:青稞-MIT-博士-LLM),即可申请加入青稞LLM/多模态/Agent/具身智能/面试/顶会等技术交流群:
加入青稞AI技术交流群,不仅能与来自MIT、港中文、CMU、UCLA、斯坦福、清华、阿里、腾讯等名校名企AI研究员/开发者一起进行技术交流,同时还有青年AI研究员/开发者的Talk分享、行业前沿资讯、顶会资源、招聘内推等。
社群列表
细分方向技术交流群
青稞|LLM技术交流群
青稞|多模态技术交流群
青稞|具身智能技术交流群
青稞|Agent技术交流群
青稞|Diffusion技术交流群
SGLang技术交流群
顶会投稿开会交流群
ICRA 投稿开会交流群 | 青稞
CVPR 投稿开会交流群 | 青稞
ICASSP 投稿开会交流群 | 青稞
NAACL 投稿开会交流群 | 青稞
ECCV 投稿开会交流群 | 青稞
AIGC/LLM面试交流群
青稞|AIGC&amp;LLM面试招聘交流群
行业资讯群
...</div><a class="blog-slider__button" href="LLM/2024-09-24/" alt="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术">详情 </a></div></div><div class="blog-slider__item swiper-slide" style="width: 750px; opacity: 1; transform: translate3d(0px, 0px, 0px); transition-duration: 0ms;"><a class="blog-slider__img" href="LLM/2024-03-21/" title="张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解"><img width="48" height="48" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://picx.zhimg.com/70/v2-317e64c3715a6f0a47445936e2d15f70_1440w.awebp?source=172ae18b&biz_tag=Post" alt="图片" onerror="this.src=undefined; this.onerror = null;"></a><div class="blog-slider__content"><span class="blog-slider__code">2024-03-21</span><a class="blog-slider__title" href="LLM/2024-03-21/" alt="张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解">张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解</a><div class="blog-slider__text">
作者:张俊林,新浪微博新技术研发负责人
声明:本文只做分享,版权归原作者,侵权私信删除
原文链接:https://zhuanlan.zhihu.com/p/687928845 |
https://zhuanlan.zhihu.com/p/684089478
Sora生成的视频效果好吗?确实好。Sora算得上AGI发展历程上的里程碑吗?我个人觉得算。我们知道它效果好就行了,有必要知道Sora到底是怎么做的吗?我觉得最好是每个人能有知情的选择权,任何想知道的人都能够知道,这种状态比较好。那我们知道Sora到底是怎么做出来的吗?不知道。
马斯克讽刺OpenAI是CloseAI,为示道不同,转头就把Grok开源了。且不论Grok效果是否足够好,马斯克此举是否有表演成分,能开源出来这行为就值得称赞。OpenAI树大招风,目前被树立成技术封闭的头号代表,想想花了上亿美金做出来的大模型,凭啥要开源?不开源确实也正常。所谓“开源固然可赞,闭源亦可理解”。
但是,我个人一年多来的感觉,OpenAI技术强归强,然而有逐渐把技术神秘化的倾向,如果不信您可以去读一下Altman的各种访谈。在这个AI技术 ...</div><a class="blog-slider__button" href="LLM/2024-03-21/" alt="张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解">详情 </a></div></div><div class="blog-slider__item swiper-slide" style="width: 750px; opacity: 1; transform: translate3d(0px, 0px, 0px); transition-duration: 0ms;"><a class="blog-slider__img" href="JD/zhuang/" title="浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生"><img width="48" height="48" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="JD/zhuang/WX20240613-094058.png" alt="图片" onerror="this.src=undefined; this.onerror = null;"></a><div class="blog-slider__content"><span class="blog-slider__code">2024-06-13</span><a class="blog-slider__title" href="JD/zhuang/" alt="浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生">浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生</a><div class="blog-slider__text">
浙江大学招收访问学者、研究助理、博士后、硕士和博士生
Monash University招收1-2名博士生
ZIP Lab介绍
ZIP Lab
是一个国际性的研究实验室,位于杭州和墨尔本。我们的主要研究重点是为边缘应用开发高效的机器学习系统,特别是在大型语言模型和多模态大模型方面。自2021年成立以来,实验室凭借其才华横溢的成员迅速取得了发展。
有关我们团队成员和论文的更多信息,请访问实验室主页:
https://ziplab.github.io/
我们正在积极招聘浙江大学的访问学者、研究助理、博士后、硕士和博士生。此外,我们还在 Monash
University
招收1-2名博士生 ,将由资深教授共同指导。我们期待在学术界影响力和工业界落地都取得突破,欢迎您的加入!
PI简介
Bohan Zhuang是ZIP
Lab的负责人。他于2018年在阿德莱德大学获得博士学位,并在澳大利亚机器人视觉中心担任高级研究员。从2020年至今,他担任Monash
University信息技术学院的长聘助理教授,该校在2025年QS全球排名第37位。2023年,他获得了国家优 ...</div><a class="blog-slider__button" href="JD/zhuang/" alt="浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生">详情 </a></div></div></div><div class="blog-slider__pagination swiper-pagination-clickable swiper-pagination-bullets"></div></div><div id="topPostGroup"><div class="top-group-list-item"><div class="post_cover left_radius"><a href="LLM/2024-09-23/" title="万字长文推演OpenAI o1 self-play RL 技术路线"><span class="top-group-text">荐</span><img class="post_bg" alt="万字长文推演OpenAI o1 self-play RL 技术路线" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic4.zhimg.com/80/v2-8ba95e688fb718ba5d9e4d5cbee58c9b_720w.webp" onerror="this.src=undefined; this.onerror = null;"></a></div><div class="top-group-info"><a class="article-title" href="LLM/2024-09-23/" title="万字长文推演OpenAI o1 self-play RL 技术路线">万字长文推演OpenAI o1 self-play RL 技术路线</a></div></div><div class="top-group-list-item"><div class="post_cover left_radius"><a href="LLM/2024-09-24/" title="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术"><span class="top-group-text">荐</span><img class="post_bg" alt="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://qingkelab.github.io/img/zhibo.gif" onerror="this.src=undefined; this.onerror = null;"></a></div><div class="top-group-info"><a class="article-title" href="LLM/2024-09-24/" title="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术">加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术</a></div></div><div class="top-group-list-item"><div class="post_cover left_radius"><a href="LLM/2024-03-21/" title="张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解"><span class="top-group-text">荐</span><img class="post_bg" alt="张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://picx.zhimg.com/70/v2-317e64c3715a6f0a47445936e2d15f70_1440w.awebp?source=172ae18b&biz_tag=Post" onerror="this.src=undefined; this.onerror = null;"></a></div><div class="top-group-info"><a class="article-title" href="LLM/2024-03-21/" title="张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解">张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解</a></div></div><div class="top-group-list-item"><div class="post_cover left_radius"><a href="JD/zhuang/" title="浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生"><span class="top-group-text">荐</span><img class="post_bg" alt="浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="JD/zhuang/WX20240613-094058.png" onerror="this.src=undefined; this.onerror = null;"></a></div><div class="top-group-info"><a class="article-title" href="JD/zhuang/" title="浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生">浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生</a></div></div><div class="top-group-list-none"></div><div class="top-group-list-none"></div><div class="top-group-list-none"></div></div></div></div></div><script>function initBlogSlider() {
var swiper = new Swiper(".blog-slider", {
passiveListeners: true,
spaceBetween: 30,
effect: "fade",
loop: true,
autoplay: {
disableOnInteraction: true,
delay: 3000,
},
mousewheel: {
passive: true, // 将 mousewheel 事件处理程序标记为被动的
},
// autoHeight: true,
pagination: {
el: ".blog-slider__pagination",
clickable: true,
},
});
var comtainer = document.getElementById("swiper_container");
if (comtainer !== null) {
comtainer.onmouseenter = function () {
swiper.autoplay.stop();
};
comtainer.onmouseleave = function () {
swiper.autoplay.start();
};
}
}
setTimeout(()=>{
initBlogSlider()
}, 100)</script><div class="layout" id="content-inner"><div class="recent-posts" id="recent-posts"> <div id="categoryBar"><div class="category-bar" id="category-bar"><div id="catalog-bar"><div id="catalog-list"><div class="catalog-list-item" id="首页"><a href="/">首页</a></div>
<div class="catalog-list-item" id="/categories/强化学习/">
<a href="/categories/强化学习/">
强化学习
</a>
</div>
<div class="catalog-list-item" id="/categories/LLM/">
<a href="/categories/LLM/">
LLM
</a>
</div>
<div class="catalog-list-item" id="/categories/AIGC/">
<a href="/categories/AIGC/">
AIGC
</a>
</div>
<div class="catalog-list-item" id="/categories/招聘/">
<a href="/categories/招聘/">
招聘
</a>
</div>
<div class="catalog-list-item" id="/categories/青稞·大模型Weekly/">
<a href="/categories/青稞·大模型Weekly/">
青稞·大模型Weekly
</a>
</div>
<div class="catalog-list-item" id="/categories/加群/">
<a href="/categories/加群/">
加群
</a>
</div>
<div class="catalog-list-item" id="/categories/大模型技术报告/">
<a href="/categories/大模型技术报告/">
大模型技术报告
</a>
</div>
<div class="catalog-list-item" id="/categories/三维视觉/">
<a href="/categories/三维视觉/">
三维视觉
</a>
</div>
<div class="catalog-list-item" id="/categories/Agent/">
<a href="/categories/Agent/">
Agent
</a>
</div>
</div></div></div></div><div class="recent-post-item lastestpost-item" onclick="pjax.loadUrl('/2025-03-24/')"><div class="post_cover left"><a href="/2025-03-24/" title="从幻觉到o1-reasoning!万字长文总结多模态大模型后训练" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic4.zhimg.com/v2-e3dfca336a7eb7f58979fe7004d1782f_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="从幻觉到o1-reasoning!万字长文总结多模态大模型后训练" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><span class="newPost">最新</span><a class="unvisited-post" href="/2025-03-24/" title="从幻觉到o1-reasoning!万字长文总结多模态大模型后训练">未读</a></div><a class="article-title" href="/2025-03-24/" title="从幻觉到o1-reasoning!万字长文总结多模态大模型后训练">从幻觉到o1-reasoning!万字长文总结多模态大模型后训练</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-03-23T11:22:14.000Z" title="发表于 2025-03-23 19:22:14" time="2025-03-23 19:22:14">2025-03-23</time><time class="time_hidden" datetime="2025-03-23T14:04:51.929Z" title="更新于 2025-03-23 22:04:51" time="2025-03-23 22:04:51">2025-03-23</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>多模态大模型</span></a><a class="article-meta__tags" href="/tags/%E6%8E%A8%E7%90%86%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>推理大模型</span></a><a class="article-meta__tags" href="/tags/yearn/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>yearn</span></a></span></div><div class="content">
作者:yearn
原文:https://zhuanlan.zhihu.com/p/31278114666
本文介绍下我们对多模态alignment近期一系列进展的整理和总结
大语言模型(LLMs)能够通过简单的提示完成多种任务,且无需进行任务特定的训练。然而,这些模型主要处理文本数据,对于多模态数据的处理存在局限。由于我们的世界本质上是多模态的,包括视觉、听觉和文本等数据,研究者开始在LLM的基础上开发多模态大型语言模型(MLLMs),以处理更复杂的数据形式。然而,现有的MLLMs仍面临一系列挑战,尤其是在真实性、安全性、推理能力和与人类偏好对齐方面,这些问题尚未得到充分解决。因此,针对这些问题的对齐算法应运而生,成为解决这些挑战的有效途径。
主要贡献
本文的主要贡献是对多模态大型语言模型(MLLMs)中的对齐算法进行全面的系统性回顾。具体而言,文章探讨了以下四个关键问题:
1.现有对齐算法的应用场景:文章通过分类当前的对齐算法,清晰地展示了它们在不同应用领域的适用性,并为研究者提供了一个统一的符号系统,帮助理解各算法之间的区别与联系。
2.对齐数据集的构建:对齐数据集的构 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/2025-03-23/')"><div class="post_cover left"><a href="/2025-03-23/" title="聊聊强化学习发展这十年" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic4.zhimg.com/v2-16774c0090a33d1b13bc36907bc91c23_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="聊聊强化学习发展这十年" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">强化学习</div><a class="unvisited-post" href="/2025-03-23/" title="聊聊强化学习发展这十年">未读</a></div><a class="article-title" href="/2025-03-23/" title="聊聊强化学习发展这十年">聊聊强化学习发展这十年</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-03-22T14:31:37.000Z" title="发表于 2025-03-22 22:31:37" time="2025-03-22 22:31:37">2025-03-22</time><time class="time_hidden" datetime="2025-03-22T14:34:02.840Z" title="更新于 2025-03-22 22:34:02" time="2025-03-22 22:34:02">2025-03-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/RL/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>RL</span></a><a class="article-meta__tags" href="/tags/%E8%B5%B5%E9%89%B4/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>赵鉴</span></a></span></div><div class="content">
作者:赵鉴,中科大博士
原文:https://zhuanlan.zhihu.com/p/31553187995
(前言:这篇文章我从祖师爷评上图灵奖的时候开始写的,但不停的在删了重写,删了重写,到现在为止才出一个我勉强接受的版本。我从我的视角来描述下我觉得这些年来强化学习的发展风向。先叠个甲,本人学术不精,本文所有观点都乃我一家之言,欢迎大家批评指正。)
最近在帮忙给强化学习立标准,我发现这是一件非常痛苦的任务。因为随着这两年强化学习的大力发展,强化学习衍生出了许许多多的子课题方向,除了最经典的online
RL以外,
例如offline model-free RL,model-based
RL,RLHF,multi-agent,risk-sensitive,inverse
RL等等,要给这些子课题找共性非常困难。
而在传统教科书中,强化学习的标准制定时由于这些子课题还未出现,导致定义早已过时。举个例子,例如强化学习强调智能体跟环境交互,而offline
RL方向偏说我就不跟环境交互。再例如强化学习强调无需人类标签还是采用奖励信号,RLHF说我就不是这样。
所以我打趣说,这就像 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-03-22/')"><div class="post_cover left"><a href="/LLM/2025-03-22/" title="字节 DAPO 技术报告有感!大模型 RL 细节为王" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic2.zhimg.com/v2-415af8db3a4463a45ec3c58c93d3ddef_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="字节 DAPO 技术报告有感!大模型 RL 细节为王" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2025-03-22/" title="字节 DAPO 技术报告有感!大模型 RL 细节为王">未读</a></div><a class="article-title" href="/LLM/2025-03-22/" title="字节 DAPO 技术报告有感!大模型 RL 细节为王">字节 DAPO 技术报告有感!大模型 RL 细节为王</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-03-22T07:59:54.000Z" title="发表于 2025-03-22 15:59:54" time="2025-03-22 15:59:54">2025-03-22</time><time class="time_hidden" datetime="2025-03-22T08:04:03.311Z" title="更新于 2025-03-22 16:04:03" time="2025-03-22 16:04:03">2025-03-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/RL/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>RL</span></a><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型</span></a><a class="article-meta__tags" href="/tags/haotian/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>haotian</span></a><a class="article-meta__tags" href="/tags/%E5%AD%97%E8%8A%82/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>字节</span></a></span></div><div class="content">
作者:haotian
原文:https://zhuanlan.zhihu.com/p/31770741283
近期,seed&清华发表的DAPO,将32b-base做到了aime50分的效果,是一个值得参考的技术报告。这个报告里面提到了很多方法/tricks:
好的流程远胜不靠谱的算法trick
llm的sft和rl,笔者认为,二者差别不大,sft是rl的一个特例(有一些文章做了类似的讨论),而rl则更好的利用了负样本。在dapo中,一个核心是dynamic-sampling,简单来说,根据当前模型在prompt的bon,动态决定采样budget,难prompt采样更多的sample,简单prompt则采样更少的prompt,以及过滤模型解决不了的hard-prompt或者easy-prompt。
在sft阶段,通常也会使用类似的策略做code/math等等的拒绝采样、筛选多样性response(embedding+聚类、长度)。从DAPO中可以看出,一个良好的pipline(online-dynamic-sampling)远胜于不靠谱的算法trick。
当做好sft ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-02-14/')"><div class="post_cover left"><a href="/LLM/2025-02-14/" title="以RLer视角看大模型训练中的强化学习" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://opendilab.github.io/DI-engine/_images/offline_no_words.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="以RLer视角看大模型训练中的强化学习" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2025-02-14/" title="以RLer视角看大模型训练中的强化学习">未读</a></div><a class="article-title" href="/LLM/2025-02-14/" title="以RLer视角看大模型训练中的强化学习">以RLer视角看大模型训练中的强化学习</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-02-14T06:46:52.000Z" title="发表于 2025-02-14 14:46:52" time="2025-02-14 14:46:52">2025-02-14</time><time class="time_hidden" datetime="2025-03-22T07:55:00.431Z" title="更新于 2025-03-22 15:55:00" time="2025-03-22 15:55:00">2025-03-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>强化学习</span></a></span></div><div class="content">
作者:赵鉴,南栖仙策打工人,中科大博士,研究方向强化学习,游戏ai
原文:https://zhuanlan.zhihu.com/p/23290969372
加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
过年期间,deepseek是火遍朋友圈,当然顺带着RL也火了,认为是训练deepseek大模型中的核心技术,我就突击看了一下论文,又跟做大模型训练的同学讨论了一下,写下了这篇文章。
额外叠个甲,因为我从来也没有做过大模型基座训练的任何工作,文中所有的观点仅是我个人粗浅的理解,我把我的暴论全部都加粗了,欢迎大家批评指正。
大模型训练的问题定义是什么
强化学习是一种解决思路,在说解决思路之前,我觉得理解清楚大模型训练的问题定义是非常关键的。可惜我看了很多论文和博客,都没有这一块的相关介绍,我只能从已有的信息中提炼出这部分的问题定义:
输入:自监督+SFT训练好的初始模型,人类偏好数据(Q,A1,A2),问题库(Q)
输出:一个新模型
基于人类偏好数据常常是用来训练奖励模型的,并且也没有在后续强化学习训练中体现出啥特殊性,有些大模型训练也不采用这部分数据来训练奖 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-02-13/')"><div class="post_cover left"><a href="/LLM/2025-02-13/" title="DeepSeek-V3/R1 的 Hosting 成本预估" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic1.zhimg.com/v2-e8587b85b826f7ab9e63c639a28e7522_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="DeepSeek-V3/R1 的 Hosting 成本预估" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2025-02-13/" title="DeepSeek-V3/R1 的 Hosting 成本预估">未读</a></div><a class="article-title" href="/LLM/2025-02-13/" title="DeepSeek-V3/R1 的 Hosting 成本预估">DeepSeek-V3/R1 的 Hosting 成本预估</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-02-14T06:44:52.000Z" title="发表于 2025-02-14 14:44:52" time="2025-02-14 14:44:52">2025-02-14</time><time class="time_hidden" datetime="2025-03-22T07:55:51.774Z" title="更新于 2025-03-22 15:55:51" time="2025-03-22 15:55:51">2025-03-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a></span></div><div class="content">
作者:Ligeng Zhu,Nvidia Research
原文:https://zhuanlan.zhihu.com/p/23282743306
加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
随着 deepseek-v3/r1 的爆火,各大 serving
厂商久旱逢甘霖终于是找到机会来宣传自家服务,在各大 MaaS
上线的如火如荼的时候,有人担忧厂商价格这么便宜(¥16 /
Mtoken)真的能赚钱吗,会不会 V3/R1 的火热只是昙花一现
即便H800
GPU打满并且做出一流优化,H800每百万token的成本是约150元,昇腾是约300元
... 如果满血版的DeepSeek
R1每日输出1000亿token,那么每月的机器成本是4.5亿,亏损4亿!用户越多,亏损越多。
TLDR
如果不优化直接用 TP /
PP,那么部署是亏钱的,但如果优化的好,盈利点十分充裕
(>90%)
考虑到 serving throughput = latency * batch-size
H100 / H800 的 throughput 很好预估,它们都是 80 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-02-05/')"><div class="post_cover left"><a href="/LLM/2025-02-05/" title="Deepseek R1 Zero 复现, 三阶段RL!" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic2.zhimg.com/v2-8febf1a4bd4ce0eff6e63e90fd1aaa25_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="Deepseek R1 Zero 复现, 三阶段RL!" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2025-02-05/" title="Deepseek R1 Zero 复现, 三阶段RL!">未读</a></div><a class="article-title" href="/LLM/2025-02-05/" title="Deepseek R1 Zero 复现, 三阶段RL!">Deepseek R1 Zero 复现, 三阶段RL!</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-02-05T08:40:09.000Z" title="发表于 2025-02-05 16:40:09" time="2025-02-05 16:40:09">2025-02-05</time><time class="time_hidden" datetime="2025-03-22T07:53:52.328Z" title="更新于 2025-03-22 15:53:52" time="2025-03-22 15:53:52">2025-03-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/DeepSeek-R1/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>DeepSeek R1</span></a></span></div><div class="content">
作者:涮月亮的谪仙人 原文:https://zhuanlan.zhihu.com/p/18565423596
>> 加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
项目代码;欢迎关注和star! 1https://github.com/Unakar/Logic-RL
我们将开源完整的wandb曲线和训练日志
1https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessToken=gnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8
在大四的最后一个寒假,和@AdusTinexl、@ShadeCloak两个小伙伴捣鼓出了点有意思的东西,非常开心,欢迎各位合作,指导!
先展示一下结果:
基座模型Qwen 7B在测试集上只会基础的step by step逻辑。
无 Long CoT冷启动蒸馏,三阶段Rule Based RL后
(约400steps),模型学会了
迟疑 ( ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-01-16/')"><div class="post_cover left"><a href="/LLM/2025-01-16/" title="MiniMax-01技术报告解读" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic2.zhimg.com/v2-c517ecfed635ccdc3734c7b7f8c0b617_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="MiniMax-01技术报告解读" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">大模型技术报告</div><a class="unvisited-post" href="/LLM/2025-01-16/" title="MiniMax-01技术报告解读">未读</a></div><a class="article-title" href="/LLM/2025-01-16/" title="MiniMax-01技术报告解读">MiniMax-01技术报告解读</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-01-16T09:10:23.000Z" title="发表于 2025-01-16 17:10:23" time="2025-01-16 17:10:23">2025-01-16</time><time class="time_hidden" datetime="2025-01-16T09:13:00.369Z" title="更新于 2025-01-16 17:13:00" time="2025-01-16 17:13:00">2025-01-16</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/MiniMax-01/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>MiniMax 01</span></a></span></div><div class="content">
作者:北方的郎 原文:https://zhuanlan.zhihu.com/p/18384965809
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
刚刚MiniMax发布了MiniMax-01,简单测试了效果,感觉不错。于是又把它的技术报告看了一下。这种报告看多了,就会多一个毛病,越来越觉得自己也能搞一个。
O
这篇文章我觉得最有意思的一句是对数据质量的强调“低质量数据在训练超过两个epoch后性能显著下降,而高质量数据可以有效地训练多达四个epoch”
MiniMax-01系列模型通过创新的Lightning Attention和专家混合(Mixture of
Experts, MoE)架构,实现了在长上下文处理上的突破性进展。
1234Paper:MiniMax-01: Scaling Foundation Models with Lightning Attention论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdfGithub地址:https://github.co ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-01-15/')"><div class="post_cover left"><a href="/LLM/2025-01-15/" title="从DeepSeek MTP,解析MTP技术的前世今生" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic1.zhimg.com/v2-8c84c2707701c25dd9987f1996418c3c_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="从DeepSeek MTP,解析MTP技术的前世今生" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2025-01-15/" title="从DeepSeek MTP,解析MTP技术的前世今生">未读</a></div><a class="article-title" href="/LLM/2025-01-15/" title="从DeepSeek MTP,解析MTP技术的前世今生">从DeepSeek MTP,解析MTP技术的前世今生</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-01-15T02:25:43.000Z" title="发表于 2025-01-15 10:25:43" time="2025-01-15 10:25:43">2025-01-15</time><time class="time_hidden" datetime="2025-01-15T02:31:09.312Z" title="更新于 2025-01-15 10:31:09" time="2025-01-15 10:31:09">2025-01-15</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/DeepSeek/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>DeepSeek</span></a></span></div><div class="content">
作者:姜富春,大厂程序员
原文:https://zhuanlan.zhihu.com/p/18056041194 >>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
引言
最近整理deepseek的技术线,针对MTP(Multi-Token
Prediction)方法做了些扩展的阅读和学习。主要参考3篇论文了解了MTP的前世今生。本文章结合业界的一些探索,并试图增加自己的一些理解来讲讲MTP方法。下面我们进入正题。
为什么要做MTP
在学习具体的方法前,我们首先了解下为什么要做MTP(Multi-Token
Prediction)?
背景
我们都知道,当前主流的大模型(LLMs)都是decoder-base的模型结构,也就是无论在模型训练还是在推理阶段,对于一个序列的生成过程,都是token-by-token的。每次在生成一个token的时候,都要频繁跟访存交互,加载KV-Cache,再通过多层网络做完整的前向计算。对于这样的访存密集型的任务,通常会因为访存效率形成训练或推理的瓶颈。
针对token-by-token生成效率的瓶颈,业界很多方法来优化,包括 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/Weekly/2025-01-13/')"><div class="post_cover left"><a href="/Weekly/2025-01-13/" title="大模型Weekly 05|450美元训练32B推理模型,并开源;微软开源Phi-4" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="/Weekly/2025-01-13/image.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="大模型Weekly 05|450美元训练32B推理模型,并开源;微软开源Phi-4" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">青稞·大模型Weekly</div><a class="unvisited-post" href="/Weekly/2025-01-13/" title="大模型Weekly 05|450美元训练32B推理模型,并开源;微软开源Phi-4">未读</a></div><a class="article-title" href="/Weekly/2025-01-13/" title="大模型Weekly 05|450美元训练32B推理模型,并开源;微软开源Phi-4">大模型Weekly 05|450美元训练32B推理模型,并开源;微软开源Phi-4</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-01-13T01:35:08.000Z" title="发表于 2025-01-13 09:35:08" time="2025-01-13 09:35:08">2025-01-13</time><time class="time_hidden" datetime="2025-01-13T01:50:07.929Z" title="更新于 2025-01-13 09:50:07" time="2025-01-13 09:50:07">2025-01-13</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型</span></a><a class="article-meta__tags" href="/tags/Weekly/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>Weekly</span></a></span></div><div class="content">
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
NovaSky发布Sky-T1-32B-Preview推理模型
训练成本不到 450 美元
Sky-T1-32B-Preview:450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】
2025年1月12日,加州大学伯克利分校天空计算实验室的研究团队NovaSky发布Sky-T1-32B-Preview推理模型。该模型在多个关键基准测试中表现出与OpenAI早期o1版本相当的水平,且其训练成本不到450美元,远低于以往同类模型的数百万美元。
Sky-T1-32B-Preview不仅是首个真正意义上的开源推理模型,NovaSky团队还公开了用于训练它的数据集及必要的训练代码,这意味着该模型可以从头开始复制。这一突破得益于合成训练数据的广泛应用,合成数据由其他模型生成,能够显著降低训练成本。
昆仑万维发布「天工大模型4.0」o1版和4o版
o1版具备中文逻辑推理能力,4o版可以提供情感表达和快速响应的实时语音对话助手Skyo
昆仑万维集团推出「天工大 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-01-12/')"><div class="post_cover left"><a href="/LLM/2025-01-12/" title="Sky-T1-32B-Preview:450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://raw.githubusercontent.com/NovaSky-AI/novasky-ai.github.io/main/assets/images/blue-bird-wider.jpeg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="Sky-T1-32B-Preview:450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">大模型技术报告</div><a class="unvisited-post" href="/LLM/2025-01-12/" title="Sky-T1-32B-Preview:450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】">未读</a></div><a class="article-title" href="/LLM/2025-01-12/" title="Sky-T1-32B-Preview:450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】">Sky-T1-32B-Preview:450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-01-11T10:32:35.000Z" title="发表于 2025-01-11 18:32:35" time="2025-01-11 18:32:35">2025-01-11</time><time class="time_hidden" datetime="2025-01-16T09:13:29.741Z" title="更新于 2025-01-16 17:13:29" time="2025-01-16 17:13:29">2025-01-16</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型</span></a><a class="article-meta__tags" href="/tags/%E6%8E%A8%E7%90%86%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>推理模型</span></a></span></div><div class="content">
原文:https://novasky-ai.github.io/posts/sky-t1/
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
Sky-T1-32B-Preview
是我们推出的推理模型,在常见的推理和编码基准测试中,其表现可与
o1-preview 媲美。值得注意的是,Sky-T1-32B-Preview 的训练成本不到
450
美元,展示了以经济高效的方式复制高水平推理能力的可能性。
123代码库:https://github.com/novasky-ai/sky-t1模型权重:https://huggingface.co/novasky-ai/sky-t1-32b-preview技术报告:https://arxiv.org/abs/2024xxxx
背景
诸如 o1 和 Gemini 2.0
等在推理方面表现出色的模型,能够通过生成长链的内部思考来解决复杂任务。然而,这些模型的技术细节和权重尚未公开,限制了学术界和开源社区的参与。
为此,一些在数学领域训练开源推理模型的努力相继出现,例如 STILL-2 和
Journey。同时, ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2025-01-08/')"><div class="post_cover left"><a href="/LLM/2025-01-08/" title="计算DeepSeekV3训练的MFU" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic1.zhimg.com/70/v2-eca3260ab577a61b7136f8ea66eb5fd4_1440w.avis?source=172ae18b&biz_tag=Post" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="计算DeepSeekV3训练的MFU" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2025-01-08/" title="计算DeepSeekV3训练的MFU">未读</a></div><a class="article-title" href="/LLM/2025-01-08/" title="计算DeepSeekV3训练的MFU">计算DeepSeekV3训练的MFU</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-01-08T05:15:56.000Z" title="发表于 2025-01-08 13:15:56" time="2025-01-08 13:15:56">2025-01-08</time><time class="time_hidden" datetime="2025-01-09T05:18:21.649Z" title="更新于 2025-01-09 13:18:21" time="2025-01-09 13:18:21">2025-01-09</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/DeepSeeek/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>DeepSeeek</span></a><a class="article-meta__tags" href="/tags/%E6%96%B9%E4%BD%B3%E7%91%9E/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>方佳瑞</span></a></span></div><div class="content">
作者:方佳瑞,清华大学计算机科学技术博士,腾讯专家工程师
原文:https://zhuanlan.zhihu.com/p/16445683081 >>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
本文利用公开信息推导得到DeepSeekV3训练时候的MFU为37%左右,相比V2的MFU提升大概60%,希望对后续技术讨论提供数据支撑。
自2024年12月发布以来,DeepSeekV3在人工智能领域引发了广泛关注。该模型不仅被国内三大顶会公众号上连篇累牍报道,更在海外社交媒体平台X等渠道引发热议。其关键因素之一在于突破性的训练成本控制——仅用557万美元便训练出了性能达到SOTA水平的模型。这一成就不仅引发业界对AI模型训练成本效益的重新思考,更延伸出对美国对华技术出口管制政策有效性的讨论,甚至影响到投资者对英伟达股价走势的判断。
神秘的幻方公司,加之某热点人物跳槽的花边,DeepSeekV3目前俨然成为舆论焦点,其影响力已远远超出技术领域,被置于中美科技博弈、中国创新实力等宏观议题中深入探讨。随着讨论不断发酵,从科技从业者到政策研究者,从资本市场到普 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/Weekly/2025-01-06/')"><div class="post_cover left"><a href="/Weekly/2025-01-06/" title="大模型Weekly04|智谱发布深度推理模型GLM-Zero-Preview;英伟达推出文本音频生成模型TangoFlux" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="/Weekly/2025-01-06/image.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="大模型Weekly04|智谱发布深度推理模型GLM-Zero-Preview;英伟达推出文本音频生成模型TangoFlux" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">青稞·大模型Weekly</div><a class="unvisited-post" href="/Weekly/2025-01-06/" title="大模型Weekly04|智谱发布深度推理模型GLM-Zero-Preview;英伟达推出文本音频生成模型TangoFlux">未读</a></div><a class="article-title" href="/Weekly/2025-01-06/" title="大模型Weekly04|智谱发布深度推理模型GLM-Zero-Preview;英伟达推出文本音频生成模型TangoFlux">大模型Weekly04|智谱发布深度推理模型GLM-Zero-Preview;英伟达推出文本音频生成模型TangoFlux</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2025-01-06T05:19:24.000Z" title="发表于 2025-01-06 13:19:24" time="2025-01-06 13:19:24">2025-01-06</time><time class="time_hidden" datetime="2025-01-09T05:30:19.819Z" title="更新于 2025-01-09 13:30:19" time="2025-01-09 13:30:19">2025-01-09</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型</span></a><a class="article-meta__tags" href="/tags/Weekly/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>Weekly</span></a></span></div><div class="content">
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
智谱发布深度推理模型zero初代版GLM-Zero-Preview
效果与OpenAI-o1-Preview 相当
2024
年12月31日,智谱AI旗下GLM技术团队发布GLM-Zero的初代版本GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。专注于增强推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题,支持文字和图片上传,输出完整推理过程。同基座模型相比,它在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升,在
AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与OpenAI-o1-Preview
相当。
详情链接:https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
英伟达联合新加坡科技设计大学推出文本音频生成模型TangoFlux
能够在3.7秒内生成30秒的高质量音频
2025年1月2日,英伟达联合新加坡科技 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/Weekly/2024-12-30/')"><div class="post_cover left"><a href="/Weekly/2024-12-30/" title="大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="/Weekly/2024-12-30/640-20241230114615504.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">青稞·大模型Weekly</div><a class="unvisited-post" href="/Weekly/2024-12-30/" title="大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!">未读</a></div><a class="article-title" href="/Weekly/2024-12-30/" title="大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!">大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-12-30T03:37:28.000Z" title="发表于 2024-12-30 11:37:28" time="2024-12-30 11:37:28">2024-12-30</time><time class="time_hidden" datetime="2024-12-30T03:52:22.196Z" title="更新于 2024-12-30 11:52:22" time="2024-12-30 11:52:22">2024-12-30</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/OpenAI/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI</span></a><a class="article-meta__tags" href="/tags/DeepSeek/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>DeepSeek</span></a><a class="article-meta__tags" href="/tags/%E9%98%BF%E9%87%8CQwen/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>阿里Qwen</span></a></span></div><div class="content">
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
国产DeepSeek-V3首个版本上线并同步开源
首位全职提示词工程师出新题,DeepSeek V3完全答对
DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中,以48.4分排名第二,仅次于OpenAI
o1的61分。而在LiveBench的测评中,DeepSeek
v3是最强的开源大语言模型,并在非推理模型中,排名第二。
详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main
IBM推出开源大型语言模型Granite3.1
能处理最多128,000个令牌
IBM开源大语言模型 Granite
3.1版本现已发布,新版本的模型经过重新设计,采用了更加 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-12-12/')"><div class="post_cover left"><a href="/LLM/2024-12-12/" title="对OpenAI o3模型的看法、思考与反思" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fo7w20vxl5oi646b5o2y8.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="对OpenAI o3模型的看法、思考与反思" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-12-12/" title="对OpenAI o3模型的看法、思考与反思">未读</a></div><a class="article-title" href="/LLM/2024-12-12/" title="对OpenAI o3模型的看法、思考与反思">对OpenAI o3模型的看法、思考与反思</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-12-25T06:54:24.000Z" title="发表于 2024-12-25 14:54:24" time="2024-12-25 14:54:24">2024-12-25</time><time class="time_hidden" datetime="2024-12-25T06:59:59.995Z" title="更新于 2024-12-25 14:59:59" time="2024-12-25 14:59:59">2024-12-25</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/OpenAI/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI</span></a><a class="article-meta__tags" href="/tags/OpenAI-o3/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI o3</span></a></span></div><div class="content">
作者:李博杰
原文:https://www.zhihu.com/question/7416922570/answer/60763494897
o1 刚出来的时候,很多人还质疑这还达不到
AGI(通用人工智能)。o3 体现出的编程和数学能力,不仅达到了 AGI
的门槛,甚至摸到了 ASI(超级人工智能)的边。
o3 也进一步验证了 RL 和 test-time scaling
的价值,在高质量预训练数据基本耗尽,模型能力 “撞墙”
的情况下,提供了一条通过后训练和增加推理时间,继续提升模型智力,解决更困难问题的路径。
o3 具体的性能指标很多人都看到了,我就不再重复了。省流版: - o3 在
Codeforces 编程竞技中击败了 99.9% 的程序员,在 168076 名程序员中排名 175
名。甚至 o3 的作者都打不过 o3。 - o3 在编程解决真实世界需求方面也比 o1
有明显提升,在 SWE-Bench 软件开发测试中,之前发布的 o1-preview 是
41.3%,o3 是 71.7%,也就是 70% 的真实世界需求,o3
可以直接做对,并通过单元测试。也就意味着只有 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/Weekly/2024-12-23/')"><div class="post_cover left"><a href="/Weekly/2024-12-23/" title="大模型Weekly|月之暗面发布Kimi视觉思考模型 k1;谷歌发布最新视频生成模型Veo 2" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="/Weekly/2024-12-23/640.jpeg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="大模型Weekly|月之暗面发布Kimi视觉思考模型 k1;谷歌发布最新视频生成模型Veo 2" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">青稞·大模型Weekly</div><a class="unvisited-post" href="/Weekly/2024-12-23/" title="大模型Weekly|月之暗面发布Kimi视觉思考模型 k1;谷歌发布最新视频生成模型Veo 2">未读</a></div><a class="article-title" href="/Weekly/2024-12-23/" title="大模型Weekly|月之暗面发布Kimi视觉思考模型 k1;谷歌发布最新视频生成模型Veo 2">大模型Weekly|月之暗面发布Kimi视觉思考模型 k1;谷歌发布最新视频生成模型Veo 2</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-12-22T11:56:33.000Z" title="发表于 2024-12-22 19:56:33" time="2024-12-22 19:56:33">2024-12-22</time><time class="time_hidden" datetime="2024-12-23T01:45:11.444Z" title="更新于 2024-12-23 09:45:11" time="2024-12-23 09:45:11">2024-12-23</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型</span></a><a class="article-meta__tags" href="/tags/Weekly/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>Weekly</span></a></span></div><div class="content">
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
月之暗面发布Kimi视觉思考模型
k1
超过全球多个标杆模型
12月16日,月之暗面正式发布AI人工智能助手Kimi的视觉思考模型
k1。基于强化学习技术,支持端到端图像理解和思维链技术,训练分预训练和强化学习后训练两个阶段,能力扩展到数学之外的物理、化学等基础科学领域,k1模型在基础科学学科的基准测试中表现优异,超越包括OpenAI
o1、GPT-4o以及Claude 3.5
Sonnet在内的多款知名模型,在教育领域的拍照搜题等方面表现出色,还可用于日常生活中识别动植物、计算卡路里等,也能进行古代文献分析等。
用户可以在最新版“Kimi智能助手”的Android、iPhone手机App以及网页版kimi.com上体验到这一创新功能。用户只需在App或网页版中找到“Kimi视觉思考版”,即可通过拍照或上传图片的方式,享受模型带来的智能化解题体验。
1使用地址:https://kimi.moonshot.cn/
无问芯穹正式开源其首个端侧全模态理解开源模型Megrez-3B-Omni ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/Weekly/2024-12-16/')"><div class="post_cover left"><a href="/Weekly/2024-12-16/" title="大模型Weekly|谷歌发布Gemini 2.0;微软推出小模型Phi-4;智谱上线GLM-4V-Flash" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="/Weekly/2024-12-16/640.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="大模型Weekly|谷歌发布Gemini 2.0;微软推出小模型Phi-4;智谱上线GLM-4V-Flash" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">青稞·大模型Weekly</div><a class="unvisited-post" href="/Weekly/2024-12-16/" title="大模型Weekly|谷歌发布Gemini 2.0;微软推出小模型Phi-4;智谱上线GLM-4V-Flash">未读</a></div><a class="article-title" href="/Weekly/2024-12-16/" title="大模型Weekly|谷歌发布Gemini 2.0;微软推出小模型Phi-4;智谱上线GLM-4V-Flash">大模型Weekly|谷歌发布Gemini 2.0;微软推出小模型Phi-4;智谱上线GLM-4V-Flash</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-12-16T01:27:24.000Z" title="发表于 2024-12-16 09:27:24" time="2024-12-16 09:27:24">2024-12-16</time><time class="time_hidden" datetime="2024-12-16T01:42:54.144Z" title="更新于 2024-12-16 09:42:54" time="2024-12-16 09:42:54">2024-12-16</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型</span></a><a class="article-meta__tags" href="/tags/Weekly/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>Weekly</span></a></span></div><div class="content">
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
谷歌发布新模型Gemini 1206
在google AI studio可以免费使用,API免费
Google 发布 Gemini-EXP-1206 实验机型,在聊天机器人竞技场中再次反超了
ChatGPT-4o 。在Livebench上排名第二,超过Claude 3.5 Sonnet,直逼Open
o1-preview
。能够处理200万个标记,擅长处理大型复杂数据集,并且在编码类别中与OpenAI的o1并列第一,Arena
Score 作为衡量语言模型综合能力的关键指标,Gemini-Exp-1206
的高分充分展示了其在多任务处理、语言理解和生成能力上的卓越表现。
OpenAI正式发布视频生成模型Sora
支持 5-20 秒的视频生成
12月10日OpenAI宣布最新研发的视频生成模型Sora将正式向用户开放,Sora最大的特色是能够根据用户的文本提示生成逼真的视频内容。Sora将于当天向美国及其他市场的ChatGPT付费用户开放,OpenAI还推出Sora
Turbo新版工具 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-12-11/')"><div class="post_cover left"><a href="/LLM/2024-12-11/" title="一位大佬的自述 | 从读博到 Google DeepMind,旅程中的心得与感恩" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://akm-img-a-in.tosshub.com/businesstoday/images/story/202411/674aa56ad71a3-google-deepmind-275805285-16x9.jpg?size=948:533" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="一位大佬的自述 | 从读博到 Google DeepMind,旅程中的心得与感恩" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-12-11/" title="一位大佬的自述 | 从读博到 Google DeepMind,旅程中的心得与感恩">未读</a></div><a class="article-title" href="/LLM/2024-12-11/" title="一位大佬的自述 | 从读博到 Google DeepMind,旅程中的心得与感恩">一位大佬的自述 | 从读博到 Google DeepMind,旅程中的心得与感恩</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-12-11T01:32:55.000Z" title="发表于 2024-12-11 09:32:55" time="2024-12-11 09:32:55">2024-12-11</time><time class="time_hidden" datetime="2024-12-11T01:39:55.102Z" title="更新于 2024-12-11 09:39:55" time="2024-12-11 09:39:55">2024-12-11</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/NUS/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>NUS</span></a></span></div><div class="content">
作者:薛复昭,新加坡国立大学,将于近期加入Google DeepMind
原文:https://xuefuzhao.notion.site/2024-12-Google-DeepMind-85cc012dc0b44af4b896c044ac77c9f2
在经历了三年精彩的博士生涯之后,我将作为高级研究科学家加入Google
DeepMind,致力于Gemini预训练和多模态研究。
我非常幸运能再次向Mostafa
Dehghani汇报工作,他是我之前实习期间的杰出导师之一,同时也很荣幸能成为Jack
Rae卓越研究团队的一员。我将从新加坡开始这段激动人心的旅程,并在几个月后转移到湾区。
我对这个新篇章超级、超级兴奋!
为了纪念这个里程碑,我写下了在攻读博士期间学到的重要经验——这不仅是为了自我反思和记录,也希望能分享并帮助到其他人
博士期间的七点心得
工程能力是研究的基础。
与优秀人才共事对提升研究品味极其有帮助。
博士期间要致力于做出简洁而有见地的45分钟演讲,而不是追求长长的发表清单。
专注于少量重要论文并深入理解,而不是浅尝辄止地阅读很多文章。
在接触新课题时,要按时间顺序 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-12-10/')"><div class="post_cover left"><a href="/LLM/2024-12-10/" title="ICLR 8分论文:模型自身也可以标注偏好数据" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://picx.zhimg.com/v2-0627a786a87c5168d5da7036ce8b3129_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="ICLR 8分论文:模型自身也可以标注偏好数据" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-12-10/" title="ICLR 8分论文:模型自身也可以标注偏好数据">未读</a></div><a class="article-title" href="/LLM/2024-12-10/" title="ICLR 8分论文:模型自身也可以标注偏好数据">ICLR 8分论文:模型自身也可以标注偏好数据</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-12-11T01:30:35.000Z" title="发表于 2024-12-11 09:30:35" time="2024-12-11 09:30:35">2024-12-11</time><time class="time_hidden" datetime="2024-12-11T01:43:28.843Z" title="更新于 2024-12-11 09:43:28" time="2024-12-11 09:43:28">2024-12-11</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a></span></div><div class="content">
作者:yearn 原文:https://www.zhihu.com/question/588325646/answer/3422090041
>>加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
12Paper:Spread Preference Annotation: Direct Preference Judgment for Efficient LLM AlignmentAbs:https://openreview.net/forum?id=BPgK5XW1Nb
大语言模型(LLMs)的成功在很大程度上依赖于与人类偏好的对齐。然而,这种对齐通常需要大规模的人工标注偏好数据,成本非常高昂。现有方法如通过外部奖励模型或利用
LLM 的上下文学习能力来模拟偏好标注,但这些方法存在以下问题:
需要大规模的人工标注数据,成本高。
LLM-as-judge 方法依赖模型规模大且预先对齐性良好,应用范围有限。
使用外部奖励模型时可能因分布不匹配导致无效,且容易产生标签噪声。
因此,本文提出了一种新的框架,称为 Spread Preference
Annot ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/AIGC/2024-12-07/')"><div class="post_cover left"><a href="/AIGC/2024-12-07/" title="浙大开源ZipAR:自回归图像生成开销降低91%" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic1.zhimg.com/80/v2-3290e3a16ade59133e0b41eb386dae02_1440w.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="浙大开源ZipAR:自回归图像生成开销降低91%" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">AIGC</div><a class="unvisited-post" href="/AIGC/2024-12-07/" title="浙大开源ZipAR:自回归图像生成开销降低91%">未读</a></div><a class="article-title" href="/AIGC/2024-12-07/" title="浙大开源ZipAR:自回归图像生成开销降低91%">浙大开源ZipAR:自回归图像生成开销降低91%</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-12-07T12:08:46.000Z" title="发表于 2024-12-07 20:08:46" time="2024-12-07 20:08:46">2024-12-07</time><time class="time_hidden" datetime="2024-12-07T12:11:02.335Z" title="更新于 2024-12-07 20:11:02" time="2024-12-07 20:11:02">2024-12-07</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/AIGC/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>AIGC</span></a><a class="article-meta__tags" href="/tags/%E6%A8%A1%E5%9E%8B%E5%8E%8B%E7%BC%A9/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>模型压缩</span></a><a class="article-meta__tags" href="/tags/%E6%B5%99%E6%B1%9F%E5%A4%A7%E5%AD%A6/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>浙江大学</span></a></span></div><div class="content">
12论文地址:https://arxiv.org/pdf/2412.04062代码地址:https://github.com/ThisisBillhe/ZipAR
问题背景
近年来,大型语言模型(LLMs)在文本生成任务中取得了显著进展,尤其是基于“下一个词预测”(next-token
prediction)范式。这一范式不仅在文本生成中表现出色,还被广泛应用于视觉内容的生成,推动了自回归(AR)视觉生成模型的发展。这些模型能够生成高质量的图像和视频,甚至在某些方面超越了最先进的扩散模型。然而,自回归模型在生成高分辨率图像或视频时,需要逐个生成数千个视觉标记,导致生成速度缓慢,成为其广泛应用的主要障碍。
在Emu3-Gen上,ZipAR可将AR模型生成图片所需的前向推理次数降低91%。
针对大语言模型的解码问题,研究者们已经提出了多种方法来减少生成过程中的前向传递次数。例如,“下一个集合预测”(next-set
prediction)范式通过引入多个解码头或小型Draft模型来生成多个候选标记,但这些方法通常需要额外的模型或训练成本。此外,Jacobi解码方法通过迭代更新标记序 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-30/')"><div class="post_cover left"><a href="/LLM/2024-11-30/" title="OpenAI o1复现之旅:通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训?" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic3.zhimg.com/v2-21807dbeced2d5e0422a5da448c68c96_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="OpenAI o1复现之旅:通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训?" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-30/" title="OpenAI o1复现之旅:通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训?">未读</a></div><a class="article-title" href="/LLM/2024-11-30/" title="OpenAI o1复现之旅:通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训?">OpenAI o1复现之旅:通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训?</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-28T08:08:37.000Z" title="发表于 2024-11-28 16:08:37" time="2024-11-28 16:08:37">2024-11-28</time><time class="time_hidden" datetime="2024-12-01T12:03:21.242Z" title="更新于 2024-12-01 20:03:21" time="2024-12-01 20:03:21">2024-12-01</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/OpenAI-o1/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI o1</span></a></span></div><div class="content">
作者:莫笑傅立叶 原文:https://zhuanlan.zhihu.com/p/9229809205
>>加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
12Paper:O1 Replication JourneyAbs:https://www.hotaipapers.com/ai-papers/2411-16489
摘要
本文批判性地审视了当前复制OpenAI
O1模型能力的方法,尤其关注广泛使用但常常未公开的知识蒸馏技术。我们之前的研究(第一部分[@qin2024o1])探讨了复制O1的基本技术路径,本研究则揭示了简单的O1
API蒸馏结合监督微调,如何在复杂的数学推理任务上取得优异性能。大量实验表明,仅在数万个O1蒸馏的长链推理样本上微调的基础模型,在全美邀请数学考试(AIME)中,其性能已超越O1预览版,且技术复杂度极低。此外,我们研究扩展到数学推理之外,探索了O1蒸馏模型在不同任务上的泛化能力:幻觉、安全性及开放域问答。值得注意的是,尽管仅在数学问题求解数据上训练,我们的模型在开放式问答任务中展现出强大的泛化能力,微调后对迎合性行为的敏感 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-29/')"><div class="post_cover left"><a href="/LLM/2024-11-29/" title="多模态视觉token压缩方法" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic2.zhimg.com/v2-b370b8b7366d1410dc56c47fc760bab5_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="多模态视觉token压缩方法" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-29/" title="多模态视觉token压缩方法">未读</a></div><a class="article-title" href="/LLM/2024-11-29/" title="多模态视觉token压缩方法">多模态视觉token压缩方法</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-28T04:51:59.000Z" title="发表于 2024-11-28 12:51:59" time="2024-11-28 12:51:59">2024-11-28</time><time class="time_hidden" datetime="2024-12-01T12:22:29.511Z" title="更新于 2024-12-01 20:22:29" time="2024-12-01 20:22:29">2024-12-01</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>多模态大模型</span></a><a class="article-meta__tags" href="/tags/VLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>VLM</span></a></span></div><div class="content">
作者:葡萄是猫 原文:https://zhuanlan.zhihu.com/p/8776092026
>>加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
简要
为提升MLLM对图像、视频的理解能力,最有效的方式就是提升visual
token的个数,随之而来的则是训练、推理耗时的增加。因此,对视觉token进行压缩以提取最有用的信息至关重要。下文基于个人理解,进行梳理。
已知技术方案概览:
1.线性映射:采用多层MLP进行压缩,如Qwen2-VL中
2.下采样:采用Pooling(可以是不同的pool采样方式),如LLaVA-OneVision
3.Pixel-Shuffle:用通道换空间,如InternVL1.1及后续系列
4.Q-former:新增learned
query实现视觉token压缩,如Flamingo、BLIP2
5.模型动态压缩:利用模型指导视觉token采样,如FocusLLaVA、MustDrop
6.注意力改造:改造注意力机制,不直接压缩token,但仍能达到提升推理速度的目的,如mPlug-owl3
其中,线性映射、下采 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-28/')"><div class="post_cover left"><a href="/LLM/2024-11-28/" title="干货!大模型 LLM 训练基础知识" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pica.zhimg.com/v2-d03a7a4cac380011cfe8ff2a74723f50_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="干货!大模型 LLM 训练基础知识" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-28/" title="干货!大模型 LLM 训练基础知识">未读</a></div><a class="article-title" href="/LLM/2024-11-28/" title="干货!大模型 LLM 训练基础知识">干货!大模型 LLM 训练基础知识</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-28T04:45:55.000Z" title="发表于 2024-11-28 12:45:55" time="2024-11-28 12:45:55">2024-11-28</time><time class="time_hidden" datetime="2024-11-28T04:51:04.016Z" title="更新于 2024-11-28 12:51:04" time="2024-11-28 12:51:04">2024-11-28</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E9%A2%84%E8%AE%AD%E7%BB%83/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型预训练</span></a></span></div><div class="content">
作者:janbox 原文:https://zhuanlan.zhihu.com/p/6345302826 >>加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
一、基本步骤
训练llm,基本分为三步:pretrain -> sft(chat model) ->
dpo/RLHF(helpful & Safety). 辅助的环节:数据处理,评估
二、模型结构
目前比较成熟,一般采用 gpt架构,Llama/Llama2 -
Transformer-Decoder结构 - PreLayerNorm-RMSNorm 12Paper:Root Mean Square Layer NormalizationAbs:https://proceedings.neurips.cc/paper_files/paper/2019/file/1e8a19426224ca89e83cef47f1e7f53b-Paper.pdf
ROPE旋转位置编码(替换绝对/相对位置编码)
SwiGLU激活函数(替换ReLU) 12Paper:GLU Variants ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-23/')"><div class="post_cover left"><a href="/LLM/2024-11-23/" title="盘点 2024 年的视觉语言模型VLMs" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://picx.zhimg.com/v2-2a4ce1a51aa625cb0f6ea9f103c34d57_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="盘点 2024 年的视觉语言模型VLMs" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-23/" title="盘点 2024 年的视觉语言模型VLMs">未读</a></div><a class="article-title" href="/LLM/2024-11-23/" title="盘点 2024 年的视觉语言模型VLMs">盘点 2024 年的视觉语言模型VLMs</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-24T08:41:08.000Z" title="发表于 2024-11-24 16:41:08" time="2024-11-24 16:41:08">2024-11-24</time><time class="time_hidden" datetime="2024-11-24T08:43:17.645Z" title="更新于 2024-11-24 16:43:17" time="2024-11-24 16:43:17">2024-11-24</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/VLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>VLM</span></a></span></div><div class="content">
作者:AI椰青 原文:https://zhuanlan.zhihu.com/p/7827587018
1 引言
视觉语言模型(Vision Language Models,
VLMs)是一类生成模型,能够同时从图像和文本中学习以解决多种任务。
视觉语言模型被广义定义为能够从图像和文本中学习的多模态模型。这类生成模型以图像和文本为输入,生成文本(或图像)作为输出。大型视觉语言模型在零样本学习中表现出色,具有良好的泛化能力,并能够处理多种类型的图像,包括文档、网页等
。Vision Language Models
Explained
近年来,已有大量关于 VLMs 的综述文章 An Introduction to
Vision-Language Modeling,Vision-Language Models for Vision Tasks: A
Survey。因此,本博文将跳过基础介绍,直接聚焦于 2024
年的最新研究趋势。
2 多模态设计
一般而言,视觉语言模型(VLMs)有两种主要的设计类型 lecture14-Vision_Language_Model.pdf:
类型
A: ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/marscode/')"><div class="post_cover left"><a href="/LLM/marscode/" title="用豆包大模型来编程是什么体验?Marscode食用指南!" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic1.zhimg.com/80/v2-b316e0a4ca3fb425c5f0b8104e6169cc_1440w.gif" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="用豆包大模型来编程是什么体验?Marscode食用指南!" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/marscode/" title="用豆包大模型来编程是什么体验?Marscode食用指南!">未读</a></div><a class="article-title" href="/LLM/marscode/" title="用豆包大模型来编程是什么体验?Marscode食用指南!">用豆包大模型来编程是什么体验?Marscode食用指南!</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-22T07:07:11.000Z" title="发表于 2024-11-22 15:07:11" time="2024-11-22 15:07:11">2024-11-22</time><time class="time_hidden" datetime="2024-11-22T07:08:28.303Z" title="更新于 2024-11-22 15:08:28" time="2024-11-22 15:08:28">2024-11-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/AI%E4%BB%A3%E7%A0%81%E7%94%9F%E6%88%90/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>AI代码生成</span></a><a class="article-meta__tags" href="/tags/%E8%B1%86%E5%8C%85/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>豆包</span></a></span></div><div class="content">前言
豆包Marscode是字节旗下的一款智能开发工具,基于「字节跳动豆包大模型」打造,拥有「云端
IDE」和「编程助手」两大产品形态,不仅支持代码补全、错误修复、AI刷题等能力,还能够帮助开发者在编程的各个阶段提供协助支持,对秋招春招的小伙伴来说,
算法机测是一个必不可少的环节, 有了Marscode, 贪玩的你,
再也不用担心刷leetcode时没有思路的时候,
在网上乱翻资料了。Marscode可以帮助我们节省下时间来摸鱼(学习)。
Marscode的编程助手支持超过100种编程语言,兼容VSCode和JetBrains代码编辑器,使得开发者可以在自己熟悉的开发环境中无缝使用Marscode的功能。此外,Marscode还具备代码解释能力,能够理解项目仓库,帮助用户准确解释代码从而快速上手开发。在修改或重构代码时,Marscode支持基于编辑行为预测下一个改动点,并给出推荐,协助完成编码过程。
起步
注册&登录
首先需要访问Marscode官网进行注册和登录。值得一提的是,Marscode支持使用抖音或稀土掘金账号快捷登录,这一点对于习惯使用这些平台的用户来说非常方便。
...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-17/')"><div class="post_cover left"><a href="/LLM/2024-11-17/" title="干货分享精调视觉语言模型VLM的经验" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pica.zhimg.com/v2-b0c606f797b89c199b52537c7bbd94b0_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="干货分享精调视觉语言模型VLM的经验" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-17/" title="干货分享精调视觉语言模型VLM的经验">未读</a></div><a class="article-title" href="/LLM/2024-11-17/" title="干货分享精调视觉语言模型VLM的经验">干货分享精调视觉语言模型VLM的经验</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-17T14:46:20.000Z" title="发表于 2024-11-17 22:46:20" time="2024-11-17 22:46:20">2024-11-17</time><time class="time_hidden" datetime="2024-11-17T14:48:32.456Z" title="更新于 2024-11-17 22:48:32" time="2024-11-17 22:48:32">2024-11-17</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/VLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>VLM</span></a><a class="article-meta__tags" href="/tags/%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>模型微调</span></a></span></div><div class="content">
作者:lym
原文:https://www.zhihu.com/question/588325646/answer/3422090041
>> 加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
如果可以用prompt解决,尽量用prompt解决,因为训练(精调)的模型往往通用能力会下降,训练和长期部署成本都比较高,这个成本也包括时间成本。
基于prompt确实不行(情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况,难度逐渐加大),选择上SFT微调。
业务场景基本用不到强化学习,强化解决的是最后一公里的问题,可以理解为有两种非常接近的输出(这两种输出都非常接近目标输出,此时已经解决了90%的问题),强化学习会对相同的输入,打压其中一种不希望的输出,同时增强另一种更接近目标的希望的输出(从DPO
loss就可以看出)。强化是用来应对细微输出差异的,并且业务场景优先用DPO,DPO只需要pair对数据,更好构造。PPO的reward
model几乎没有开源的,需要的数据更多,超参也更多,除非是逻辑或代码场景,在文本场景中,DPO效果是 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-11/')"><div class="post_cover left"><a href="/LLM/2024-11-11/" title="DPO新作Your Language Model is Secretly a Q-Function解读,与OPENAI Q* 的联系?" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic1.zhimg.com/v2-6242ba7373feb47c5d715f3c6e037e06_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="DPO新作Your Language Model is Secretly a Q-Function解读,与OPENAI Q* 的联系?" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-11/" title="DPO新作Your Language Model is Secretly a Q-Function解读,与OPENAI Q* 的联系?">未读</a></div><a class="article-title" href="/LLM/2024-11-11/" title="DPO新作Your Language Model is Secretly a Q-Function解读,与OPENAI Q* 的联系?">DPO新作Your Language Model is Secretly a Q-Function解读,与OPENAI Q* 的联系?</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-09T15:34:46.000Z" title="发表于 2024-11-09 23:34:46" time="2024-11-09 23:34:46">2024-11-09</time><time class="time_hidden" datetime="2024-11-17T14:49:02.140Z" title="更新于 2024-11-17 22:49:02" time="2024-11-17 22:49:02">2024-11-17</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型微调</span></a></span></div><div class="content">
作者:陈陈,TSAIL: 强化学习+生成模型 原文:https://zhuanlan.zhihu.com/p/693746297
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
20号下午两位THUNLP的同学(淦渠和立凡)分别给我发了这篇arxiv,询问和上次讨论时谈到的一个理论的联系。简单看了文章后发现几乎完全撞了车。好吧严格讲也不算撞,这篇文章的理论去年十月我大概想明白推导完,但实在想不清楚有啥合适的应用因而给放弃掉了。现在也只能感慨之余写个解读了。
12From r to Q∗: Your Language Model is Secretly a Q-Functionhttps://arxiv.org/pdf/2404.12358.pdf
为什么写这个解读:
本文几乎是DPO的原班人马搞的,新来的Joey
Hejna是X-QL(本文部分核心理论)一作。这篇文章并没有提出一个新的算法,或者是在一个新的任务上刷了SOTA,主要是对DPO算法给出了一个理论解释,统一了处理LLM强化学习任务的两个视角,即序列决策还是单步决策。用强化学习的语言就是说de ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-10/')"><div class="post_cover left"><a href="/LLM/2024-11-10/" title="DPO,RM,RLHF 傻傻分不清楚" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic4.zhimg.com/v2-11e9bf76796c533c063e8c8e9d79370b_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="DPO,RM,RLHF 傻傻分不清楚" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-10/" title="DPO,RM,RLHF 傻傻分不清楚">未读</a></div><a class="article-title" href="/LLM/2024-11-10/" title="DPO,RM,RLHF 傻傻分不清楚">DPO,RM,RLHF 傻傻分不清楚</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-09T14:55:11.000Z" title="发表于 2024-11-09 22:55:11" time="2024-11-09 22:55:11">2024-11-09</time><time class="time_hidden" datetime="2024-11-17T14:49:17.305Z" title="更新于 2024-11-17 22:49:17" time="2024-11-17 22:49:17">2024-11-17</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型微调</span></a></span></div><div class="content">
作者:曹宇,阿里巴巴集团 · 大模型 原文:https://zhuanlan.zhihu.com/p/718913850
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
DPO 的论文引用最近已经破千了(现在是1600+),成了斯坦福的Chelsea
Finn组的机器人超猛PhD学生R.M.
Rafailov的第一被引论文。又由于第二梯队的大模型频繁提及DPO的变种,DPO+RM的用法未来估计机器人界的思潮对于LLM的正向影响不会削弱。
按照我平时使用的体验,我们可以将当前的主要头部三强划分为第一梯队,头部开源三强划分成为第二梯队,再加上我一直比较关心的应用侧玩家Apple:
模型
对齐算法
使用 Reward Model
多阶段对齐
Claude Sonnet 3.5
RL PPO
是
未知
OpenAI GPT-4o
RL PPO
是
未知
Gemini Pro
RL REINFORCE
是
是
Deepseek-V2
RL GRPO
是
是
Llama3.1
DPO+RM
是
是
Qwen2
DPO+RM
是
...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-11-09/')"><div class="post_cover left"><a href="/LLM/2024-11-09/" title="基于 MLCEngine 的低延迟高吞吐量的 LLM 部署研究" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://picx.zhimg.com/v2-054b87644c3dc3c3dc3044e820bcc605_1440w.jpg" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="基于 MLCEngine 的低延迟高吞吐量的 LLM 部署研究" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-11-09/" title="基于 MLCEngine 的低延迟高吞吐量的 LLM 部署研究">未读</a></div><a class="article-title" href="/LLM/2024-11-09/" title="基于 MLCEngine 的低延迟高吞吐量的 LLM 部署研究">基于 MLCEngine 的低延迟高吞吐量的 LLM 部署研究</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-09T14:35:18.000Z" title="发表于 2024-11-09 22:35:18" time="2024-11-09 22:35:18">2024-11-09</time><time class="time_hidden" datetime="2024-11-17T14:49:21.222Z" title="更新于 2024-11-17 22:49:21" time="2024-11-17 22:49:21">2024-11-17</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>大模型推理</span></a><a class="article-meta__tags" href="/tags/MLCEngine/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>MLCEngine</span></a></span></div><div class="content">
作者:赖睿航,CMU CS Ph.D.(已授权) 原文:https://zhuanlan.zhihu.com/p/903143931
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
今年六月初,我们 MLC 团队发布了支持全平台部署的大模型推理引擎
MLCEngine。通过机器学习编译、全平台通用的推理 runtime 和统一的 OpenAI
API 接口,MLCEngine
支持从云端服务器到本地设备的全平台大语言模型部署。
引擎的推理性能长久以来以来都是我们开发 MLCEngine
过程中关注的一大重点。过去这两个多月里,MLC 社区一直在努力提升 MLCEngine
在云端 serving
场景下的性能。我们想通过这篇文章和小伙伴们分享这段时间我们取得的一些成果和经验。
在这篇文章里我们会重点探讨低延迟高吞吐量 (low-latency
high-throughput) 的 LLM 推理。在有非常多优秀的工作聚焦于提升
LLM 引擎总吞吐量的同时,大家能够注意到延迟这一指标对于 LLM
引擎的重要性正在日益增长,而延迟也是大家在使用各大 API ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/JD/2024-11-6/')"><div class="post_cover left"><a href="/JD/2024-11-6/" title="浙大百人计划教授魏颖课题组招收2025年博士生、研究助理、实习生" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://wei-ying.net/images/Ying_circle_3.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="浙大百人计划教授魏颖课题组招收2025年博士生、研究助理、实习生" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">招聘</div><a class="unvisited-post" href="/JD/2024-11-6/" title="浙大百人计划教授魏颖课题组招收2025年博士生、研究助理、实习生">未读</a></div><a class="article-title" href="/JD/2024-11-6/" title="浙大百人计划教授魏颖课题组招收2025年博士生、研究助理、实习生">浙大百人计划教授魏颖课题组招收2025年博士生、研究助理、实习生</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-06T06:47:15.000Z" title="发表于 2024-11-06 14:47:15" time="2024-11-06 14:47:15">2024-11-06</time><time class="time_hidden" datetime="2024-11-07T03:37:09.389Z" title="更新于 2024-11-07 11:37:09" time="2024-11-07 11:37:09">2024-11-07</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E6%B5%99%E6%B1%9F%E5%A4%A7%E5%AD%A6/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>浙江大学</span></a><a class="article-meta__tags" href="/tags/%E7%94%B3%E5%8D%9A/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>申博</span></a></span></div><div class="content">导师介绍
魏颖博士,浙江大学“百人计划”研究员,博士生导师。曾于南洋理工大学“南洋”助理教授及香港城市大学助理教授。在ICML、NeurIPS、ICLR等机器学习顶级会议、SCI一区期刊上共发表论文60余篇。曾获机器学习顶级会议ICLR
2024年最佳论文奖提名和数据挖掘顶级会议ACM SIGKDD
2014年最佳论文奖提名。担任机器学习顶级期刊TMLR的执行编辑、机器学习顶级会议ICML、NeurIPS、ICLR的领域主席、人工智能顶级会议AAAI的高级程序委员等。
详细信息参见个人主页:https://wei-ying.net/。
研究方向
基座模型(LLM)与迁移学习:聚焦如何基于迁移学习(指令微调、适配技术)提升基座模型在实际应用中的效率与性能,克服真实动态环境下的性能瓶颈。
持续学习:研究如何在动态变化的环境中持续学习和适应,推动包括基座模型在内的机器学习模型进化。
AI在物质合成中的应用:研究如何利用AI技术辅助化学与材料领域的创新发现。
你将在这里获得什么?
直接参与前沿科研项目:你将有机会参与到前沿研究项目中,提升理论基础和应用技巧,快速积累科研经验,并在顶级期 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/AIGC/2024-11-04/')"><div class="post_cover left"><a href="/AIGC/2024-11-04/" title="K-Sort Arena:探索高效竞技场算法,根据人类偏好快速评估视觉生成模型" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="/AIGC/2024-11-04/image2.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="K-Sort Arena:探索高效竞技场算法,根据人类偏好快速评估视觉生成模型" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">AIGC</div><a class="unvisited-post" href="/AIGC/2024-11-04/" title="K-Sort Arena:探索高效竞技场算法,根据人类偏好快速评估视觉生成模型">未读</a></div><a class="article-title" href="/AIGC/2024-11-04/" title="K-Sort Arena:探索高效竞技场算法,根据人类偏好快速评估视觉生成模型">K-Sort Arena:探索高效竞技场算法,根据人类偏好快速评估视觉生成模型</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-11-04T11:15:44.000Z" title="发表于 2024-11-04 19:15:44" time="2024-11-04 19:15:44">2024-11-04</time><time class="time_hidden" datetime="2024-11-04T11:53:39.681Z" title="更新于 2024-11-04 19:53:39" time="2024-11-04 19:53:39">2024-11-04</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/Dong-Zhen/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>Dong Zhen</span></a><a class="article-meta__tags" href="/tags/%E8%A7%86%E8%A7%89%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>视觉生成模型</span></a></span></div><div class="content">视觉生成模型的快速发展需要高效可靠的评估方法。Arena
平台收集用户对模型比较的投票,可以根据人类偏好对模型进行排名。
然而,传统的 Arena
需要进行过多的投票才能收敛排名,并且容易受到投票中偏好噪声的影响。
为此,来自自动化所和伯克利的研究团队提出K-Sort Arena,采用 K-wise
比较,允许 K
个模型参与自由混战,提供比成对比较更丰富的信息,并设计基于探索-利用的匹配算法和概率建模,从而实现更高效和更可靠的模型排名。
论文地址:https://arxiv.org/abs/2408.14468
项目地址:https://huggingface.co/spaces/ksort/K-Sort-Arena
K-Sort Arena已经历数个月的内测,期间收到来自Berkeley, NUS, CMU,
Stanford, Princeton, 北大, Collov Labs,
美团等数十家机构的专业人员的技术反馈。目前,K-Sort Arena
已收集几千次高质量投票并有效地构建了全面的模型排行榜,已用于评估几十种最先进的视觉生成模型,包括文生图和文生视频模型。
研究 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-10-23/')"><div class="post_cover left"><a href="/LLM/2024-10-23/" title="OpenAI o1:AI新范式以及对未来的 10 个启示" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://substackcdn.com/image/fetch/w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F893df033-1e69-4bda-a0d7-ddbd8bc28a6e_698x268.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="OpenAI o1:AI新范式以及对未来的 10 个启示" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-10-23/" title="OpenAI o1:AI新范式以及对未来的 10 个启示">未读</a></div><a class="article-title" href="/LLM/2024-10-23/" title="OpenAI o1:AI新范式以及对未来的 10 个启示">OpenAI o1:AI新范式以及对未来的 10 个启示</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-10-27T05:37:39.000Z" title="发表于 2024-10-27 13:37:39" time="2024-10-27 13:37:39">2024-10-27</time><time class="time_hidden" datetime="2024-11-17T14:49:28.947Z" title="更新于 2024-11-17 22:49:28" time="2024-11-17 22:49:28">2024-11-17</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/OpenAI/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI</span></a><a class="article-meta__tags" href="/tags/OpenAI-o1/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI o1</span></a></span></div><div class="content">
翻译:青稞AI 原文:https://www.thealgorithmicbridge.com/p/openai-o1-a-new-paradigm-for-ai
不, GPT 并没有消失。但从新的 OpenAI o1
模型系列中,我们可以清晰地看出——请允许我为此感到激动——一个全新的范式正在诞生:推理的新范式,扩展的新范式,人工智能的新范式。
虽然 ChatGPT 和 GPT-4 仍然会陪伴我们,但它们不再是 OpenAI
的“宠儿”。我们正步入一个新的阶段,一个新的时代。公司未来的资源和精力将主要集中在探索、扩展和完善这个新范式上,这个时刻更像是
GPT-3 带来的震撼(“等等,人工智能居然能做到这些?”),而非 ChatGPT
的“全民狂欢时刻”(“人人都来参加派对!”)。
我们需要很多答案来解释这一整体转变:
推理人工智能对于生成人工智能来说意味着什么(它到底具有生成性吗)?
用户将如何与能够思考的人工智能模型建立联系并进行互动?
当让推理模型思考几个小时、几天甚至几周时,它们能做什么?
推理模型现在如何根据计算来扩展性能?
公司将如何在训练推理流程中分配计算?
所有 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-10-10/')"><div class="post_cover left"><a href="/LLM/2024-10-10/" title="探索多模态大模型的最佳技术路线" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pica.zhimg.com/80/v2-e78d1646a11d1b3f30d27e48d2acf334_720w.webp" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="探索多模态大模型的最佳技术路线" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-10-10/" title="探索多模态大模型的最佳技术路线">未读</a></div><a class="article-title" href="/LLM/2024-10-10/" title="探索多模态大模型的最佳技术路线">探索多模态大模型的最佳技术路线</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-10-09T06:57:17.000Z" title="发表于 2024-10-09 14:57:17" time="2024-10-09 14:57:17">2024-10-09</time><time class="time_hidden" datetime="2024-10-09T06:58:32.152Z" title="更新于 2024-10-09 14:58:32" time="2024-10-09 14:58:32">2024-10-09</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>多模态大模型</span></a><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a></span></div><div class="content">
作者:yearn,微软亚洲研究院 · Research Intern 主页:https://yfzhang114.github.io/
原文:https://zhuanlan.zhihu.com/p/731680062
视觉-语言模型(Vision-Language Models,
VLMs)领域正迅速发展,但在数据、架构和训练方法等关键方面还未达成共识。本文旨在为构建VLM提供指南,概述当前的最先进方法,指出各自的优缺点,解决该领域的主要挑战,并为未被充分探索的研究领域提供有前途的研究方向。
1Abs:https://www.arxiv.org/pdf/2408.12637
主要贡献
系统性综述:提供了对当前最先进VLM方法的全面概述,探讨了不同方法的优缺点,提出了未来的研究方向。
实践指导:详细阐述了构建Idefics3-8B模型的实际步骤,这是一种强大的VLM,显著优于其前身Idefics2-8B。
数据集贡献:创建了Docmatix数据集,用于提升文档理解能力。该数据集包含240倍于之前开放数据集的规模,共计2.4百万张图片和9.5百万对问答对,从1.3百万个PDF文档中 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-10-09/')"><div class="post_cover left"><a href="/LLM/2024-10-09/" title="从O1模型聊聊低延迟LLM推理加速器的设计" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic1.zhimg.com/80/v2-e53e6a9b1c4eead871cc26c7ce4c4b06_720w.webp" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="从O1模型聊聊低延迟LLM推理加速器的设计" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-10-09/" title="从O1模型聊聊低延迟LLM推理加速器的设计">未读</a></div><a class="article-title" href="/LLM/2024-10-09/" title="从O1模型聊聊低延迟LLM推理加速器的设计">从O1模型聊聊低延迟LLM推理加速器的设计</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-10-08T12:42:29.000Z" title="发表于 2024-10-08 20:42:29" time="2024-10-08 20:42:29">2024-10-08</time><time class="time_hidden" datetime="2024-10-08T12:43:22.637Z" title="更新于 2024-10-08 20:43:22" time="2024-10-08 20:43:22">2024-10-08</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/LLM%E6%8E%A8%E7%90%86/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM推理</span></a></span></div><div class="content">
作者:知返 原文:https://zhuanlan.zhihu.com/p/764498716 >>加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
在今年年初写的一篇文章里面,我曾经分析过当时大热的Groq LPU
加速器的LLM推理性能,现在看来里面分析的方法论稍微有些稚嫩,不过大体结论都还是对的。
如果你还不了解Groq当时搞了什么大新闻,可以再回顾一下下面这张图。在LLAMA2
70B模型下,Groq LPU以接近200Token/s
的单用户推理性能冠绝群雄。注意,这是单用户的吞吐,而不是整个系统通过组大Batch打满算力带宽得到的吞吐。可以换算一下每token的延迟(TBT)可以打到5ms左右。作为对比,通常GPU推理实例能达到的TBT一般在15-50ms。
Groq LPU 单用户推理性能
在文章的结尾我做了几个预测与分析,一方面是当时看来,低延迟推理的商业模式还没有没有跑通,低延迟推理意味着什么还是个大大的问号。二是显然LPU的分布式SRAM卡+确定性互联和调度的方案只能算是“青春版”解法,这个赛道上一定会有晶圆级大SRAM加速器玩 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-10-08/')"><div class="post_cover left"><a href="/LLM/2024-10-08/" title="多模态大模型的预训练策略探究" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic4.zhimg.com/80/v2-a5013e37f952ae322b97b8ce1c2b2353_1440w.webp" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="多模态大模型的预训练策略探究" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-10-08/" title="多模态大模型的预训练策略探究">未读</a></div><a class="article-title" href="/LLM/2024-10-08/" title="多模态大模型的预训练策略探究">多模态大模型的预训练策略探究</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-10-08T02:38:22.000Z" title="发表于 2024-10-08 10:38:22" time="2024-10-08 10:38:22">2024-10-08</time><time class="time_hidden" datetime="2024-10-08T02:39:31.485Z" title="更新于 2024-10-08 10:39:31" time="2024-10-08 10:39:31">2024-10-08</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%95%8A%E5%A4%A7%E6%A8%A1%E5%9E%8B/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>多模态啊大模型</span></a></span></div><div class="content">
作者:阿秋Rachel 原文:https://zhuanlan.zhihu.com/p/722324120
>>加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
多模态大模型预训练探究主要指的是在视觉指令微调前的训练阶段,让模型学会理解图像及其视觉概念,在多个模态上进行joint
modeling的过程。
本文主要内容来自下列文章,探索了视觉语言预训练阶段如何设计更有利于下游任务。
VILA: On Pre-training for
Visual Language Models
MM1: Methods, Analysis
& Insights from Multimodal LLM Pre-training
NVLM: Open Frontier-Class
Multimodal LLMs
VILA
结论
好的预训练阶段可以让模型具有多图推理能力、更强的in-context
learning能力、更广泛的世界知识。
预训练时冻结LLMs就可以实现不错的zero-shot能力,但是在in-context
learning能力上会有所下降。
...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-10-03/')"><div class="post_cover left"><a href="/LLM/2024-10-03/" title="万字总结 LLM 推理加速方式" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic4.zhimg.com/80/v2-2ea404ec3ec90d89a25db4f4bfb150e7_1440w.webp" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="万字总结 LLM 推理加速方式" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-10-03/" title="万字总结 LLM 推理加速方式">未读</a></div><a class="article-title" href="/LLM/2024-10-03/" title="万字总结 LLM 推理加速方式">万字总结 LLM 推理加速方式</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-10-02T23:42:45.000Z" title="发表于 2024-10-03 07:42:45" time="2024-10-03 07:42:45">2024-10-03</time><time class="time_hidden" datetime="2024-10-02T23:44:22.195Z" title="更新于 2024-10-03 07:44:22" time="2024-10-03 07:44:22">2024-10-03</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>模型推理</span></a></span></div><div class="content">
作者:梦想成真,阿里巴巴集团算法工程师 原文:https://zhuanlan.zhihu.com/p/688736901
前言
LLM参数一般都是1.5B,3B,7B,13B甚至更大,远大于CV的主流模型。并且随着ChatGPT爆火,基本上现在的LLM都是围绕decoder-only的next
token
prediction形式,推理预测方式相对比较固定,本文是从一个初学者角度,介绍LLM
若干推理加速方式。
总览
总的来说,我的调研中,有如下几种方式可以提高LLM推理的速度
量化
模型结构改进
Dynamic batch
投机(Speculative) 推理
量化
几乎在每一个LLM的公开repo中都能看到作者团队release了不同大小的量化模型,这是因为量化是一种非常有效的加速LLM推理,并且减少显存占用的方式。
数值类型
讲量化之前,有必要带大家重温一下数值类型。如果你觉得不重要,你完全可以跳过到下一个章节
,你只需要记住LLM的训练和推理要尽量使用BF16,而不是FP16,HF16,FP32就行了。
这里主要区分** FP32 、FP16
和BF16**。这些是L ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-10-02/')"><div class="post_cover left"><a href="/LLM/2024-10-02/" title="OpenAI o1能否支撑AGI的新Scaling?" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://hub-apac-1.lobeobjects.space/blog/assets/64c011a42dc93c9cd4f7fa2b8c441f33.webp" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="OpenAI o1能否支撑AGI的新Scaling?" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-10-02/" title="OpenAI o1能否支撑AGI的新Scaling?">未读</a></div><a class="article-title" href="/LLM/2024-10-02/" title="OpenAI o1能否支撑AGI的新Scaling?">OpenAI o1能否支撑AGI的新Scaling?</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-10-02T02:20:27.000Z" title="发表于 2024-10-02 10:20:27" time="2024-10-02 10:20:27">2024-10-02</time><time class="time_hidden" datetime="2024-10-02T02:24:42.936Z" title="更新于 2024-10-02 10:24:42" time="2024-10-02 10:24:42">2024-10-02</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/OenAI/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OenAI</span></a></span></div><div class="content">
作者:mackler,Computer Architect/Minecraft 原文:https://zhuanlan.zhihu.com/p/730982539
OpenAI
o1的推出带来了一波新的算法热潮,OpenAI官方也强推所谓新的深度思考的Scaling。虽然听起来用LLM和RL来进行隐式COT(也就是“思考”)咋一眼看上去很有道理。但真正支撑Scaling还是需要深入思考里面的很多基本假设,和我过去的文章一样,包含很多个人观点极强的暴论,各位看官酌情食用。
关于o1实现方式大家也已经猜测地八九不离十了,以下几个都可以参考参考
GitHub -
hijkzzz/Awesome-LLM-Strawberry 收录了不少相关论文
曹宇:OpenAI o1
self-play RL 技术路线推演
张俊林:Reverse-o1:OpenAI
o1原理逆向工程图解
无论如何,给LLM纠错的机会,对于效果的提升都是可以预期的。LLM生成token的过程中,生成的序列越长,产生错误token的概率自然也会越高,后面模型为了自洽往往会用一百个谎言来掩盖第一个谎言,最后就彻底逻辑失控 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-09-25/')"><div class="post_cover left"><a href="/LLM/2024-09-25/" title="万字干货!从零到一进行LLM pretrain的经验" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTkrnumycMfTqCXIPZIC9OTYeBlnvyVSKXWkg&s" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="万字干货!从零到一进行LLM pretrain的经验" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-09-25/" title="万字干货!从零到一进行LLM pretrain的经验">未读</a></div><a class="article-title" href="/LLM/2024-09-25/" title="万字干货!从零到一进行LLM pretrain的经验">万字干货!从零到一进行LLM pretrain的经验</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-09-24T08:41:18.000Z" title="发表于 2024-09-24 16:41:18" time="2024-09-24 16:41:18">2024-09-24</time><time class="time_hidden" datetime="2024-09-24T08:45:37.179Z" title="更新于 2024-09-24 16:45:37" time="2024-09-24 16:45:37">2024-09-24</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/pretrain/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>pretrain</span></a></span></div><div class="content">
作者: ybq,nlp码农,中国科学院大学 信号与信息处理硕士 原文: https://zhuanlan.zhihu.com/p/718354385
这篇文章介绍下如何从零到一进行 pretrain 工作。
类似的文章应该有很多,不同的地方可能在于,我并不会去分析 pretrain
阶段的核心技术,而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些,主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我,文中有一些内容的具体做法不会展开细说,请大家见谅。作为替代,我会推荐一些比较好的开源做法。
背景篇
时至今日,dense 模型有 qwen,MOE 模型有 deepseek,小尺寸模型有
minicpm。无论是个人还是大厂,都很难训出同 size 下更优秀的模型,大模型
pretrain
阶段全面拥抱开源的日子感觉不太远了。那么,在这个时代大背景下,自研
pretrain 模型的意义又有哪些呢?
正经答案
各公司仅仅是开源了模型参数,但并没有开源训练框架、训练数据等更核心的内容,其实本质上还是闭源。在这种情况下,每一个 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-09-24/')"><div class="post_cover left"><a href="/LLM/2024-09-24/" title="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://qingkelab.github.io/img/zhibo.gif" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">加群</div><a class="unvisited-post" href="/LLM/2024-09-24/" title="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术">未读</a></div><a class="article-title" href="/LLM/2024-09-24/" title="加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术">加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-09-23T09:31:39.000Z" title="发表于 2024-09-23 17:31:39" time="2024-09-23 17:31:39">2024-09-23</time><time class="time_hidden" datetime="2025-03-22T07:58:19.428Z" title="更新于 2025-03-22 15:58:19" time="2025-03-22 15:58:19">2025-03-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/LLM/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>LLM</span></a><a class="article-meta__tags" href="/tags/AIGC/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>AIGC</span></a></span></div><div class="content">青稞社区
青年AI研究员idea加油站,AI开发者的新能源充电桩!
青稞AI技术交流群
长案扫码添加青稞小助手
备注:姓名-学校/公司-学历/职位-研究领域(如:青稞-MIT-博士-LLM),即可申请加入青稞LLM/多模态/Agent/具身智能/面试/顶会等技术交流群:
加入青稞AI技术交流群,不仅能与来自MIT、港中文、CMU、UCLA、斯坦福、清华、阿里、腾讯等名校名企AI研究员/开发者一起进行技术交流,同时还有青年AI研究员/开发者的Talk分享、行业前沿资讯、顶会资源、招聘内推等。
社群列表
细分方向技术交流群
青稞|LLM技术交流群
青稞|多模态技术交流群
青稞|具身智能技术交流群
青稞|Agent技术交流群
青稞|Diffusion技术交流群
SGLang技术交流群
顶会投稿开会交流群
ICRA 投稿开会交流群 | 青稞
CVPR 投稿开会交流群 | 青稞
ICASSP 投稿开会交流群 | 青稞
NAACL 投稿开会交流群 | 青稞
ECCV 投稿开会交流群 | 青稞
AIGC/LLM面试交流群
青稞|AIGC&LLM面试招聘交流群
行业资讯群
...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/3D/Manydepth2/')"><div class="post_cover left"><a href="/3D/Manydepth2/" title="Manydepth2 | 基于运动感知自监督单目深度与位姿估计" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="/3D/Manydepth2/demo2.png" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="Manydepth2 | 基于运动感知自监督单目深度与位姿估计" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">三维视觉</div><a class="unvisited-post" href="/3D/Manydepth2/" title="Manydepth2 | 基于运动感知自监督单目深度与位姿估计">未读</a></div><a class="article-title" href="/3D/Manydepth2/" title="Manydepth2 | 基于运动感知自监督单目深度与位姿估计">Manydepth2 | 基于运动感知自监督单目深度与位姿估计</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-09-22T09:06:36.000Z" title="发表于 2024-09-22 17:06:36" time="2024-09-22 17:06:36">2024-09-22</time><time class="time_hidden" datetime="2024-09-22T09:12:55.405Z" title="更新于 2024-09-22 17:12:55" time="2024-09-22 17:12:55">2024-09-22</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/%E4%B8%89%E7%BB%B4%E8%A7%86%E8%A7%89/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>三维视觉</span></a><a class="article-meta__tags" href="/tags/%E6%B7%B1%E5%BA%A6%E4%BC%B0%E8%AE%A1/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>深度估计</span></a><a class="article-meta__tags" href="/tags/%E4%BD%8D%E5%A7%BF%E4%BC%B0%E8%AE%A1/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>位姿估计</span></a></span></div><div class="content">
尽管自监督单目深度估计与位姿估计技术已经取得了长足的进展,但在处理包含动态物体的复杂场景时,仍面临诸多挑战。这主要是由于这些方法大多建立在静态世界假设的基础上,难以准确捕捉并处理动态变化。为了突破这一瓶颈,我们推出了Manydepth2,一个创新的基于运动引导代价体积的深度网络。
Manydepth2将光流信息与初步的单目深度估计结果相结合,构建出一个静态参考帧,以此作为处理动态场景的基础。通过与目标帧的协同作用,我们构建了一个运动引导的代价体积,有效地捕捉了场景中物体的运动信息。此外,为了增强网络的性能,我们还引入了一种先进的基于注意力的深度网络架构,该架构能够高效地整合来自不同分辨率特征图的关键信息,进一步提升了深度估计与位姿估计的准确性和鲁棒性。
实验数据证明,在KITTI-2015和Cityscapes等权威数据集上,与计算成本相近的其他方法相比,Manydepth2在自监督单目深度估计与位姿估计任务中均展现出了卓越的性能,实现了显著的误差降低和精度提升。
其中的主要贡献包括:
静态参考帧生成:我们创新性地结合了估计的光流信息和先前的深度信息,生成了一个新的静态参考帧。这一 ...</div></div></div><div class="recent-post-item" onclick="pjax.loadUrl('/LLM/2024-09-20/')"><div class="post_cover left"><a href="/LLM/2024-09-20/" title="OpenAI o1的合成数据与推理搜索是怎么实现的" style="display: flex;height: 100%;"><img class="post_bg" src= "" onerror="this.onerror=null,this.src="/img/404.jpg"" data-lazy-src="https://pic2.zhimg.com/80/v2-935dbbff3655d05954c2497ec5b00553_720w.webp" onerror="this.onerror=null;this.src='/img/404.jpg'" alt="OpenAI o1的合成数据与推理搜索是怎么实现的" style="pointer-events: none"></a></div><div class="recent-post-info"><div class="recent-post-info-top"><div class="recent-post-info-top-tips"><div class="article-categories-original">LLM</div><a class="unvisited-post" href="/LLM/2024-09-20/" title="OpenAI o1的合成数据与推理搜索是怎么实现的">未读</a></div><a class="article-title" href="/LLM/2024-09-20/" title="OpenAI o1的合成数据与推理搜索是怎么实现的">OpenAI o1的合成数据与推理搜索是怎么实现的</a></div><div class="article-meta-wrap"><span class="post-meta-date"><i class="anzhiyufont anzhiyu-icon-calendar-days" style="font-size: 15px; "></i><span class="article-meta-label">发表于</span><time datetime="2024-09-20T01:52:02.000Z" title="发表于 2024-09-20 09:52:02" time="2024-09-20 09:52:02">2024-09-20</time><time class="time_hidden" datetime="2024-09-20T01:55:27.243Z" title="更新于 2024-09-20 09:55:27" time="2024-09-20 09:55:27">2024-09-20</time></span><span class="article-meta tags"><a class="article-meta__tags" href="/tags/OpenAI/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI</span></a><a class="article-meta__tags" href="/tags/OpenAI-o1/" event.cancelbubble onclick="window.event.cancelBubble=true;"><span> <i class="anzhiyufont anzhiyu-icon-hashtag"></i>OpenAI o1</span></a></span></div><div class="content">背景简介
首先推荐阅读一下拾象的《LLM
的范式转移:RL 带来新的 Scaling Law》,很好地科普了一下基于 RL 的新
LLM scaling 范式。
之前我们常说的 scaling law 一般指的是 pre-train
阶段通过算力、数据、模型参数量的提升来不断提升模型智能水平。不过最近一年来看,碰到了不少瓶颈:
算力
上我们受限于超大规模训练集群的各种工程挑战,例如 LLaMA 3 的 paper
里就提到他们的万卡集群每两小时就会有坏卡问题出现,所以进一步拓展到 10
万卡规模的集群目前看起来难度很大。
数据方面,文本数据达到 10-20T token
量级后,需要进一步在数量级上提升目前也比较困难了。尤其是能带来“增量收益”的复杂推理方面的数据更加稀缺。