Skip to content

Latest commit

 

History

History
518 lines (347 loc) · 41.2 KB

ToDo.md

File metadata and controls

518 lines (347 loc) · 41.2 KB

《Understanding Failures of Deep Networks via Robust Feature Extraction》(CVPR 2021) github.com/singlasahil14/barlow

《What is being transferred in transfer learning?》(NeurIPS 2020) github.com/google-research/understanding-transfer-learning

DETR小实例(HuggingFace Transformers) https://colab.research.google.com/github/NielsRogge/Transformers-Tutorials/blob/master/DETR/DETR_minimal_example_(with_DetrFeatureExtractor).ipynb

《LETR: Line Segment Detection Using Transformers without Edges》(CVPR 2021) github.com/mlpc-ucsd/LETR

First Order Motion Model for Image Animation https://github.com/AliaksandrSiarohin/first-order-model

Pyodi:Python目标检测数据集探索工具

github.com/Gradiant/pyodi

MLOps-Basics:MLOps基础教程 github.com/graviraja/MLOps-Basics

Do Vision Transformers See Like Convolutional Neural Networks? https://arxiv.org/abs/2108.08810

绝妙的个人生产力(Awesome Productivity 中文版) - 开放的由中文社区共建的绝妙系列精选资源清单,专注于提升个人生产力的知识方法和工具) github.com/eastlakeside/awesome-productivity-cn

面向计算机视觉迁移学习的预训练神经网络架构比较 https://share.streamlit.io/aghasemi/vptm/app.py

Cockpit:深度网络训练实用调试工具 github.com/f-dangel/cockpit

img2dataset:从URL列表直接构建图片数据集 github.com/rom1504/img2dataset

MegFlow:面向视觉应用的流式计算框架, 目标是简单、高性能、帮助机器学习应用快速落地 github.com/MegEngine/MegFlow

用skeleton-tracing和pix2pix生成剔骨仿宋字体 github.com/LingDong-/tk-fangsong-font

用TensorRT实现的无人驾驶CV系统,包括目标检测、车道检测、道路分割、深度估计等 github.com/iwatake2222/self-driving-ish_computer_vision_system

【tensorRT_Pro:高性能推理,TensorRT C++/Python库,工业级,便于使用】 github.com/shouxieai/tensorRT_Pro

【OpenGait:开源步态识别框架】 github.com/ShiqiYu/OpenGait

Keras实例教程:移动友好的Transformer图像分类模型MobileViT https://keras.io/examples/vision/mobilevit/

HandPose X - 手部21个关键点检测,PyTorch二维手势姿态识别

github.com/EricLee2021-72324/handpose_x

MLSpace:无障碍机器学习和深度学习开发,为PyTorch、 Tensorflow 等提供了预配置环境,所有环境附带VSCode(代码服务器)和JupyterLab,不用再为CUDA/cuDNN版本操心 github.com/abhishekkrthakur/mlspace

多模态表示学习模型集 github.com/declare-lab/multimodal-deep-learning

Koila:一行代码解决“CUDA error: out of memory”问题

github.com/rentruewang/koila

modelkit:极简但功能强大的Python MLOps库,方便将机器学习模型部署到产品中 github.com/Cornerstone-OnDemand/modelkit

用于查找数据集中标签错误、用含噪标签进行学习的机器学习包 github.com/cleanlab/cleanlab

2021十大CV论文盘点 github.com/louisfb01/top-10-cv-papers-2021

StylEx:一种新的分类器可视化解释方法 https://arxiv.org/abs/2104.13369 https://ai.googleblog.com/2022/01/introducing-stylex-new-approach-for.html

FFCV:大幅加快(PyTorch)机器学习训练速度的数据加载器,把ImageNet训练时间缩短到几十分钟 github.com/libffcv/ffcv

机器学习实验跟踪管理工具Aim github.com/aimhubio/aim

这个 GitHub 项目通过可视化的方式,让你更为直观的理解 SHA256 算法原理。 github.com/dmarman/sha256algorithm ​​​​

Google面向青少年的“身边的AI”科普项目,通过实例了解AI基本概念 https://applieddigitalskills.withgoogle.com/c/middle-and-high-school/en/discover-ai-in-daily-life/overview.html

GPU上大模型减少内存加快训练技巧 https://huggingface.co/docs/transformers/performance

Clearml:用于简化机器学习工作流的工具套件,涉及实验管理器,机器学习运维、数据管理等 github.com/allegroai/clearml

tunnelto:把本地web服务开放到外网 github.com/agrinman/tunnelto

OpenBot: 用智能手机作为低成本机器人(小车)的大脑,各种配件加一起售价约50美元 github.com/isl-org/OpenBot

CutCat:将现实场景里目标直接复制粘贴到背景图片的App github.com/ansnoussi/CutCat

AI as an API,主要讲解如何基于 NLP 技术,开发一个文本分类器,并进行持续化数据存储,封装成 API。 GitHub:github.com/datastaxdevs/workshop-ai-as-api

如果你正在尝试用 AI 来进行艺术创作,那么可以看下 ml4a 这个开源 Python 库。 作者通过代码封装的方式,将 AI 艺术创作类的开源项目整合到了一起,包括图像风格迁移、基于素描的图像生成、图片分辨率增强、图像卡通话等模型。 GitHub:github.com/ml4a/ml4a 另外作者在每个项目里面,都配套了 Jupyter Notebook,便于开发者掌握深度学习基础知识与开发技巧。

Linux 系统操作手册》(Linux SysOps Handbook),主要介绍了 Linux 系统常用的管理技术与运维工具。 GitHub:github.com/abarrak/linux-sysops-handbook 书中包括系统用户权限管理、Shell 使用技巧、文件权限设置、后台管理任务设置、日志记录的监控与分析等知识。

nvitop:一站式GPU状态交互浏览器 github.com/XuehaiPan/nvitop

你可曾想过,对于失明的孩子而言,他们将如何进行社交互动呢?近日,微软研究院与学术界专家合作推出了PeopleLens,旨在帮助失明或视力低下的儿童及青少年更加轻松地与同龄人互动。当这些孩子在面对同伴时,头戴式设备PeopleLens可以以空间化的音频大声朗读同伴的名字,帮助孩子们更好地了解小伙伴的相对位置和距离,从而有效传达交流意图。同时,同伴们也可以通过PeopleLens知道他们何时被“看到”并更好地进行互动交流。对于失明的儿童和青少年而言,PeopleLens将成为一种社交方式,让他们在社交互动中逐渐培养交流能力与信心。 https://www.microsoft.com/en-us/research/blog/peoplelens-using-ai-to-support-social-interaction-between-children-who-are-blind-and-their-peers/

'Grab the GPUs to run your own code! - Grab GPU whenever available' github.com/godweiyang/GrabGPU

Learning to generate line drawings that convey geometry and semantics https://arxiv.org/abs/2203.12691

Explainable CNNs:基于PyTorch的可视化包,用于为CNN生成分层解释 github.com/ashutosh1919/explainable-cnn

MockingBird - AI拟声: 5秒内克隆您的声音并生成任意语音内容

github.com/babysor/MockingBird

VTuberTalk:根据VTuber的声音训练而成的TTS(text-to-speech)模型,输入文本和VTuber可以输出对应的语音

github.com/jerryuhoo/VTuberTalk

Manim Machine Learning:Manim机器学习概念可视化动画解析项目

github.com/helblazer811/ManimMachineLearning

PYSKL:基于骨架动作识别工具箱 github.com/kennymckormick/pyskl

Interesting Colabs:Colab Notebooks精选集 github.com/BreezeWhite/interesting-colabs

Squirrel Core:让机器学习团队以协作、灵活和高效的方式共享、加载和转换数据 github.com/merantix-momentum/squirrel-core

DevStream:开源DevOps工具链管理工具

github.com/merico-dev/stream

pinferencia:将机器学习模型快速部署成API服务 github.com/underneathall/pinferencia

YOLO-V5 GRADCAM:用GradCam实现的Yolov5层可视化 github.com/pooya-mohammadi/yolov5-gradcam

机器学习实验跟踪工具入门

https://www.kaggle.com/discussions/questions-and-answers/320239

GitHub 上这个名为 Gradio 的开源项目,可在短短几分钟内,为机器学习模型生成一个简洁、优雅的 UI 界面,让你能在浏览器中进行项目演示。 通过该界面,你可以完成拖拽上传图像、粘贴文本、声音录制等操作,并查看模型输出内容。 github.com/gradio-app/gradio ​​​​

bytetrack-opencv-onnxruntime - 分别使用OpenCV、ONNXRuntime部署YOLOX+ByteTrack目标跟踪,包含C++和Python两个版本的程序 github.com/hpc203/bytetrack-opencv-onnxruntime

如何轻松绘制神经网络架构图 towardsdatascience.com/how-to-easily-draw-neural-network-architecture-diagrams-a6b6138ed875

dalle-flow:基于DALL·E的人在环路高清图片生成工具 github.com/jina-ai/dalle-flow

Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation 提出物体感知神经场景表示,将场景分解为一组对象和背景,让NERF不仅能预测像素,还能预测深度和实例分割。 https://arxiv.org/abs/2205.04334

buildg: Dockerfile的交互式调试工具 github.com/ktock/buildg

battleship-rs:Rust写的海战棋游戏

github.com/orhun/battleship-rs

在生产中部署机器学习模型的考虑因素 towardsdatascience.com/considerations-for-deploying-machine-learning-models-in-production-89d38d96cc23

Hugging Face Transformer模块企业级CPU/GPU推理服务器高效部署方案 github.com/ELS-RD/transformer-deploy

Deploying ML models with CPU based TFServing, Docker, and Kubernetes github.com/deep-diver/ml-deployment-k8s-tfserving

【feder:神经网络可视化工具】’feder - Visualization for hnsw, faiss and other anns index' by Zilliz GitHub: github.com/zilliztech/feder

onnx-modifier:ONNX模型实时可视化编辑工具 ’onnx-modifier - A tool to modify onnx models in a visualization fashion, based on Netron and flask.' by Zhang Ge GitHub: github.com/ZhangGe6/onnx-modifier

【MulimgViewer:多图像浏览器,在一个界面显示多个图像,方便图像的比较、筛选】'MulimgViewer - a multi-image viewer that can open multiple images in one interface, which is convenient for image comparison and image stitching.' by Jiawei Liu GitHub: github.com/nachifur/MulimgViewer

【少样本增量学习相关文献资源列表】’Awesome Few-Shot Class-Incremental Learning' by Da-Wei Zhou GitHub: github.com/zhoudw-zdw/Awesome-Few-Shot-Class-Incremental-Learning

【InferenceDB:面向实时机器学习推理的数据库,基于Kafka】’InferenceDB - Stream inferences of real-time ML models in production to any data lake' by Aporia GitHub: github.com/aporia-ai/inferencedb

[CV]《Replacing Labeled Real-image Datasets with Auto-generated Contours》H Kataoka, R Hayamizu, R Yamada, K Nakashima, S Takashima, X Zhang, E J Martinez-Noriega, N Inoue, R Yokota [AIST] (2022) https://arxiv.org/abs/2206.09132

【Git Based MLOps:用Git/GitHub实现MLOps】’Git Based MLOps - shows how to realize MLOps in Git/GitHub. In order to achieve this aim, this project heavily leverages the toolse such as DVC, DVC Studio, DVCLive - all products built by iterative.ai, Google Drive, Jarvislabs.ai, and HuggingFace Hub.’ by codingpot GitHub: github.com/codingpot/git-mlops

'Giskard - Open-Source CI/CD platform for ML teams. Deliver ML products, better & faster.' GitHub: github.com/Giskard-AI/giskard

【40个Linux服务器安全强化小贴士】《40 Linux Server Hardening Security Tips [2021 edition] - nixCraft》 https://www.cyberciti.biz/tips/linux-security.html

【DeepSpeed-MII:DeepSpeed扩展库,旨在使强大的transformer模型的低延迟、低成本推理不仅可行而且易于访问】’DeepSpeed-MII - library from DeepSpeed, designed to make low-latency, low-cost inference of powerful transformer models not only feasible but also easily accessible’ by Microsoft GitHub: github.com/microsoft/DeepSpeed-MII

openbmb 大模型全流程高效计算工具链,涵盖训练、微调、压缩、推理全流程 https://www.openbmb.org/home

'《通用视觉框架 OpenMMLab》 公开课' by wangruohui GitHub: github.com/wangruohui/OpenMMLabCourse

【MLOps Course:基于项目的MLOps实战课程】’MLOps Course - A project-based course on the foundations of MLOps with a focus on intuition and application.' by Goku Mohandas GitHub: github.com/GokuMohandas/mlops-course

渣画质视频秒变清晰,“达芬奇”工具集帮你自动搞定

https://azsjae.blob.core.windows.net/davinci/release/DaVinci_ISR_General_20220622.zip https://azsjae.blob.core.windows.net/davinci/release/DaVinci_VSR_Small_Face_20220622.zip https://github.com/microsoft/DaVinci

'ONNX HAWP Line Detection - Python scripts for performing line detection using the HAWP model in ONNX.' by Ibai Gorordo GitHub: github.com/ibaiGorordo/ONNX-HAWP-Line-Detection

【ZigZag:用于识别时序峰值和谷值的Python库】’ZigZag - Python library for identifying the peaks and valleys of a time series.' by John B Nelson GitHub: github.com/jbn/ZigZag

'Morphling - Automatic tuning for ML model deployment on Kubernetes' by kubedl-io GitHub: github.com/kubedl-io/morphling

'2022阿里天池真实场景篡改图像检测挑战赛-冠军方案(1/1149)' by Kingdrone GitHub: github.com/Junjue-Wang/Rank1-Ali-Tianchi-Real-World-Image-Forgery-Localization-Challenge

[CL]《FormNet: Structural Encoding beyond Sequential Modeling in Form Document Information Extraction》C Lee, C Li, T Dozat, V Perot, G Su, N Hua, J Ainslie, R Wang, Y Fujii, T Pfister [Google Cloud AI Research & Google Research] (2022) https://arxiv.org/abs/2203.08411

《给学术研究者的机器学习避坑指南》 https://arxiv.org/pdf/2108.02497.pdf

智慧手语,在我国手语语言特点的基础上,自主构建大规模多模态手语语料库,通过AI手语数字脑完成语义蒸馏、手语翻译,经由高逼真数字人模型生成高准确率的动作、表情、口型,实现自然专业、易懂度高的手语效果。 https://vip.aminer.cn/sign/

'fcmaes - A Python 3 gradient-free optimization library' by dietmarwo GitHub: github.com/dietmarwo/fast-cma-es

用 Python 为模型创建演示界面。这是一个用于构建机器学习和数据科学演示的 Python 库,它包含多种输入和展示的组件,使用起来极其方便,只用几行代码就可以创建出演示机器学习模型的 Web 界面。

https://github.com/gradio-app/gradio

高性能、轻量级的神经网络部署框架。支持人脸关键点检测、卡通图像风格化、天气场景识别等功能,打包全部功能后的 SDK 体积还不到 3 MB,适用于 Android、iOS 等操作系统 https://github.com/joyycom/VNN

基于图像识别的 AI 自动化框架,支持吃鸡类、射击类、MOBA 类等游戏类型。内置多种图像识别算法和 AI 算法,不用抠图完全基于图像识别的 AI 训练和框架 https://github.com/Tencent/GameAISDK

【THINGSvision:用于从最先进的计算机视觉神经网络中提取和分析图像表示的Python包】’THINGSvision - Python package to extract and analyze image representations from state-of-the-art neural networks for computer vision' by ViCCo-Group GitHub: github.com/ViCCo-Group/THINGSvision

[CV]《Where Should I Spend My FLOPS? Efficiency Evaluations of Visual Pre-training Methods》S Koppula, Y Li, E Shelhamer, A Jaegle, N Parthasarathy, R Arandjelovic, J Carreira, O Hénaff [DeepMind] (2022) https://arxiv.org/abs/2209.15589

【Deep Lake: 一种数据集格式,提供简单的 API 以用于创建、存储和协作处理任何规模的 AI 数据集】'Deep Lake: Data Lake for Deep Learning - Data Lake for Deep Learning. Build, manage, query, version, & visualize datasets. Stream data real-time to PyTorch/TensorFlow' by Activeloop GitHub: github.com/activeloopai/deeplake

【AITemplate:将神经网络转换成高性能CUDA/HIP C++代码,用于FP16 TensorCore (NVIDIA GPU) / MatrixCore (AMD GPU) 快速推理服务】’AITemplate - a Python framework which renders neural network into high performance CUDA/HIP C++ code. Specialized for FP16 TensorCore (NVIDIA GPU) and MatrixCore (AMD GPU) inference.' by Meta Incubator GitHub: github.com/facebookincubator/AITemplate

【Ikomia API:用来轻松快速构建和部署计算机视觉工作流的开源工具】’IkomiaApi - Python API - State-of-the-art algorithms in Computer Vision with a few lines of code.' by Ikomia GitHub: github.com/Ikomia-dev/IkomiaApi

【kernl:仅需一行代码在GPU上以几倍速度运行Pytorch transformer模型】’kernl - lets you run Pytorch transformer models several times faster on GPU with a single line of code, and is designed to be easily hackable.' by Lefebvre Dalloz Services GitHub: github.com/ELS-RD/kernl

【Hawkeye:基于PyTorch构建的开源深度学习细粒度图像识别工具箱】'Hawkeye - Open source deep learning based fine-grained image recognition toolbox built on PyTorch' by Hawkeye-FineGrained GitHub: github.com/Hawkeye-FineGrained/Hawkeye

[LG]《Unsupervised visualization of image datasets using contrastive learning》J N Böhm, P Berens, D Kobak [University of Tubingen] (2022) https://arxiv.org/abs/2210.09879

【基于LAION-5B图片嵌入索引得到的图片去重数据集】’Image Deduplication - Testset' by LAION-AI GitHub: github.com/LAION-AI/image-deduplication-testset

【ModelScope:一个“模型即服务”(MaaS)平台,旨在汇集AI社区最先进的机器学习模型,并简化利用和应用AI模型的过程】'ModelScope - a “Model-as-a-Service” (MaaS) platform that seeks to bringing together most advanced machine learning models from the AI community, and to streamlining the process of leveraging and applying AI models' GitHub: github.com/modelscope/modelscope

【GPU环境管理】’genv (GPU Environment Management)' by run:ai GitHub: github.com/run-ai/genv

【video2dataset:从视频链接轻松创建大规模视频数据集】'video2dataset - Easily create large video dataset from video urls' by Maciej Kilian GitHub: github.com/iejMac/video2dataset

[CV]《Image Deblurring with Domain Generalizable Diffusion Models》M Ren, M Delbracio, H Talebi, G Gerig, P Milanfar [Google Research & New York University] (2022) https://arxiv.org/abs/2212.01789

[LG]《The Forward-Forward Algorithm: Some Preliminary Investigations》G Hinton [Google Brain] (2022) https://www.cs.toronto.edu/~hinton/FFA13.pdf

【Renate:采用先进的持续学习和终身学习算法,用于神经网络模型自动重训练的Python包】'Renate - Library for automatic retraining and continual learning' by Amazon Web Services - Labs GitHub: github.com/awslabs/Renate

【机器学习可解释性相关资源列表】’Resources for Machine Learning Explainability' by van_der_Schaar \LAB GitHub: github.com/vanderschaarlab/Interpretability

【My backup scripts:用ssh和rsync备份的脚本集】’My backup scripts - The various scripts I use to back up my home computers using ssh and rsync' by Eamonn Sullivan GitHub: github.com/eamonnsullivan/backup-scripts

[CV]《What do Vision Transformers Learn? A Visual Exploration》A Ghiasi, H Kazemi, E Borgnia, S Reich, M Shu, M Goldblum, A G Wilson, T Goldstein [University of Maryland & New York University] (2022) https://arxiv.org/abs/2212.06727

【Pynimate:Python统计数据动画包】'Pynimate - Python package for statistical data animations' by Md Julkarnaeen GitHub: github.com/julkaar9/pynimate

'MyArxiv - 基于Arxiv官方API与Github Actions相关服务,提供Arxiv的定制化服务,使用者可以通过配置相关文件,从Arxiv每日发布的最新研究成果中,实现个性化轻松地阅览属于自己的Arxiv网站’ by MLNLP GitHub: github.com/MLNLP-World/MyArxiv

'文件快递柜-轻量 - 文件快递柜-匿名口令分享文本,文件,像拿快递一样取文件(File Express Cabinet - Anonymous Passcode Sharing Text, Files, Like Taking Express Delivery for Files)' by vastsa GitHub: github.com/vastsa/FileCodeBox

【textra:借助Apple的API将图像、 PDF 和音频文件转换为文本的命令行工具】'textra - A command-line application to convert images, PDFs, and audio files to text using Apple's APIs' by Dylan Freedman GitHub: github.com/freedmand/textra

【Auto Synced & Translated Dubs:自动生成视频字幕并进行翻译,用语音合成实现配音,再利用字幕时间实现音画同步】'Auto Synced & Translated Dubs - Automatically translates the text of a video based on a subtitle file, and also uses AI voice to dub the video, and synced using the subtitle's timings' by ThioJoe GitHub: github.com/ThioJoe/Auto-Synced-Translated-Dubs

文字语义纠错技术探索与实践-张健 https://blogread.cn/news/item.php?id=15478&f=wb_blogread

【nanoGPT:用于训练/微调中型GPT的最简单、最快的代码库,minGPT的改进版】’nanoGPT - The simplest, fastest repository for training/finetuning medium-sized GPTs.' by Andrej Karpathy GitHub: github.com/karpathy/nanoGPT

基于Manim实现的卷积网络可视化 [酷] src: github.com/helblazer811/ManimML/blob/main/examples/cnn/cnn.py via:Alec Helbling

[CV]《SuperGF: Unifying Local and Global Features for Visual Localization》W Song, R Yan, B Lei, T Okatani [Megvii & Tohoku University] (2022) https://arxiv.org/abs/2212.13105

[LG]《Semantic match: Debugging feature attribution methods in XAI for healthcare》G Cinà, T E. Röber, R Goedhart, Ş. İ Birbil [University of Amsterdam] (2023) https://arxiv.org/abs/2301.02080

[CV]《Learning Good Features to Transfer Across Tasks and Domains》P Z Ramirez, A Cardace, L D Luigi, A Tonioni, S Salti, L D Stefano [University of Bologna & Google] (2023) https://arxiv.org/abs/2301.11310

Gemini2深度相机,OpenCV+Python几行代码便可获取深度图像

'使用 Prompts 和 Chains 让 ChatGPT 成为神奇的生产力工具 - 详细介绍如何使用 ChatGPT 完成各种任务' Xiaoquan Kong GitHub: github.com/howl-anderson/unlocking-the-power-of-llms

【分布漂移相关论文资源列表】’awesome-distribution-shift - A curated list of papers and resources about the distribution shift in machine learning.' TianxinWei GitHub: github.com/weitianxin/awesome-distribution-shift

【VITS Fast Fine-tuning:VITS 快速微调(声线转换)】’VITS Fast Fine-tuning - This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and any-to-any voice conversion' Plachtaa GitHub: github.com/Plachtaa/VITS-fast-fine-tuning

【深度学习DIY教程】“Deep Learning Do It Yourself!” https:// dataflowr.github.io/website/ GitHub: github.com/dataflowr/notebooks

Git速查表-在线手册 https://cheatsheet.wang/

ChatPaper,一款可利用 ChatGPT 总结 arxiv 论文的开源工具。 该项目可根据用户关键词下载 arxiv 上的最新论文,利用 ChatGPT3.5 API 强大的归纳能力,将其浓缩成固定格式,文字少且易读。 GitHub:github.com/kaixindelele/ChatPaper 作者为 ChatPaper 提供了一个 Web 图形界面,让用户可以选择在私有或公共环境中部设置 ChatPaper,或在 Hugging Face 上在线体验该项目功能。

'利用ChatGPT实现Arxiv论文的快速阅读(中文),可通过RSS分类订阅’ by qhduan GitHub: github.com/qhduan/cn-chat-arxiv

'如何快速开发一个OpenAI/GPT应用:国内开发者笔记' Easy GitHub: github.com/easychen/openai-gpt-dev-notes-for-cn-developer

'ChatWeb - 爬取任意网页并提取正文,然后根据正文内容回答你的问题' skywalker233 GitHub: github.com/SkywalkerDarren/chatWeb

【ChatPaper:一款论文总结工具,根据用户输入的关键词,自动在arxiv上下载最新的论文,再利用ChatGPT3.5的API接口的总结能力,将论文总结为固定的格式】’ChatPaper - Use ChatGPT to summary the Arxiv papers.' kaixindelele GitHub: github.com/kaixindelele/ChatPaper

【Cformers:使用C语言作为后端,可在CPU上快速地进行Transformer模型的推理,支持多种预训练的变换器模型,如BERT、GPT-2、T5等】'Cformers - SoTA Transformers with C-backend for fast inference on your CPU.' Nolano.org GitHub: github.com/NolanoOrg/cformers

【从头理解和编写大语言模型的自注意力机制】《Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch》 https://sebastianraschka.com/blog/2023/self-attention-from-scratch.html

提出一种新的图像Token化方案,使用可变大小的图像块替代标准的均匀块,从而实现更好的图像分类。 [CV]《Vision Transformers with Mixed-Resolution Tokenization》T Ronen, O Levy, A Golbert [Tel Aviv University] (2023) https://arxiv.org/abs/2304.00287

【GroundedSAM-zero-shot-anomaly-detection:基于Segment Anything(SAM)的零样本异常检测】’GroundedSAM-zero-shot-anomaly-detection - This project addresses zero-shot anomaly detection by combining SAM and Grouding DINO.' Yunkang Cao GitHub: github.com/caoyunkang/GroundedSAM-zero-shot-anomaly-detection

【PBRemTools:结合了 Segment Anything & CLIP 的自动抠图】’PBRemTools - Precise background remover' mattyamonaca GitHub: github.com/mattyamonaca/PBRemTools

手语自动生成的api,随意输入任何文字,比如“你好,北京!我们一起开启新阶段”,秒级生成一个手语的3d视频 https://signit.ai/

【SAM + OCR + Stable Diffusion 文本实例的自动检测、识别和分割,以及一些下游任务,如文本去除/补全等】’Optical Character Recognition with Segment Anything (OCR-SAM) - Combining MMOCR with Segment Anything & Stable Diffusion. Automatically detect, recognize and segment text instances, with serval downstream tasks, e.g., Text Removal and Text Inpainting' Zhenhua Yang GitHub: github.com/yeungchenwa/OCR-SAM

Meta最新的开源项目DINOv2:具有自我监督学习功能的最先进的计算机视觉模型 这款全新的自监督视觉Transformer模型可以作为几乎所有计算机视觉任务的主干模型。无需微调。 • 无需大量标注数据,即可训练计算机视觉模型。 • 多功能主干:图像分类、分割、图像检索和深度估计。 • 直接从图像中学习特征,而无需依赖文本描述,这有助于更好地理解局部信息。 • 可以从任何图像集合中学习。 • DINOv2 的预训练版本已经上线,并在众多任务中与 CLIP 和 OpenCLIP 竞争。 Meta继SAM(Segment Anything) 网页链接 之后又一计算机视觉领域的重量级开源项目。 源码: github.com/facebookresearch/dinov2

推荐一款开源的数据可视化分析神器:DataEase,操作简单易上手,开箱即用。 该工具拥有多种丰富美观的图表展示、图表制作、数据引擎等功能。支持多种数据源连接,通过拖拉拽即可快速制作图表,并与他人分享。 你可以用它来快速分析数据并洞察业务趋势,从而实现业务的改进与优化。 GitHub:github.com/dataease/dataease 除此之外,DataEase 还搭建了一个模板市场,里面的模板种类涵盖了多个使用场景和行业领域,用户不用自己费心设计就可以做出漂亮的大屏。 “模板市场” 功能板块被内嵌在 DataEase 的操作界面中,用户选择模板就能直接应用,一键切换到自己的数据集,快速生成各种酷炫的可视化大屏。

健康学习到150岁 - 人体系统调优不完全指南 作者根据斯坦福的神经科学教授Huberman的研究成果整理的关于健康相关的内容,像调优软件程序那样来“调优”我们自身的人体系统。 项目地址:github.com/zijie0/HumanSystemOptimization

【llm-analysis:用于计算大型语言模型(LLM)或Transformer模型的训练或推理时延和内存使用的工具。可以根据指定的模型、GPU、数据类型和并行配置估算LLM的时延和内存使用情况。可以帮助回答许多问题,例如确定批量大小、数据类型和并行方案以获得可行且最佳的训练或推理设置。还支持通过命令行界面进行查询,并提供了快速开始指南和示例用法】'llm-analysis - Latency and Memory Analysis of Transformer Models for Training and Inference' Cheng Li GitHub: github.com/cli99/llm-analysis

《ChatGPT+麦肯锡方法论,快速了解一个行业》 简单总结一下内容: 借助麦肯锡方法论了解一个行业主要是三个关键步骤:

  • 第1步是总结行业的100个关键词。
  • 第2步是找三五个专家访谈,了解各种行业问题。
  • 第3步是找三五本行业专业书籍,仔细阅读并找出共性。 结合ChatGPT的话,可以:
  1. 先让ChatGPT给出50个关键字,这里借助上网插件效果更佳
  2. 让ChatGPT对这些关键字进行归类,生成Markdown表格
  3. 在对关键字排除优先级,以及提供参考的书籍资料。由于ChatGPT喜欢胡说八道,所以要加上“引用真实数据”
  4. 可以让GPT筛选行业宏观方面内容,例如产业结构、上下游等,并形成Markdown表格
  5. 可以借助“Show Me”这种导图插件生成思维导图
  6. 可以借助“AskYourPDF”插件或者ChatDoc平台辅助阅读PDF https://ki6j1b0d92h.feishu.cn/wiki/E4I1wSQY6i2GxAkMANuc0E8anRd

【单块GPU上的高效训练】《Efficient Training on a Single GPU》 https://huggingface.co/docs/transformers/perf_train_gpu_one

FasterViT是一种新的混合CNN-ViT神经网络,通过引入分层注意力方法,有效地结合了CNN的快速本地表示学习和ViT的全局建模特性,实现了高图像吞吐,提高了计算机视觉任务的效率和准确性。 https://arxiv.org/abs/2306.06189 [CV]《FasterViT: Fast Vision Transformers with Hierarchical Attention》A Hatamizadeh, G Heinrich, H Yin, A Tao, J M. Alvarez, J Kautz, P Molchanov [NVIDIA] (2023) https://github.com/NVlabs/FasterViT

400 行代码玩转 YOLOv8 检测/分割/关键点 NCNN 部署 https://zhuanlan.zhihu.com/p/622596922

GitHub 上一个简单的 AI 入门项目。 实现了 AIGC 中常用的图像/文本模型、向量存储、身份验证、项目部署等一整套流程,可作为开发 AI 应用时的项目参考。 GitHub:github.com/a16z-infra/ai-getting-started ​​​

'Train and Deploy a Real-Time ML model - Train an ML model to predict crypto prices and deploy it as a REST API.' Pau Labarta Bajo GitHub: github.com/Paulescu/hands-on-train-and-deploy-ml

'YOLOv8 TensorRT C++ Implementation' cyrusbehr GitHub: github.com/cyrusbehr/YOLOv8-TensorRT-CPP

【FlashAttention-2:改进的注意力算法,用于加速注意力计算并减少内存使用,比v1快2倍,比标准注意力快 5-9 倍,在 A100 上达到 225 TFLOPs/s 的训练速度】《FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning》 https://crfm.stanford.edu/2023/07/17/flash2.html

【AI4S Embedded: 边缘设备上的音频事件识别,旨在通过在边缘设备(如树莓派)上使用卷积网络进行音频事件识别,实现实时音频分析和分类】’AI4S Embedded: Audio Event Recognition on Edge Devices' Gabriel Bibbó GitHub: github.com/gbibbo/ai4s-embedded

【YOLOExplorer:用于快速迭代和处理计算机视觉数据集的工具,支持使用简单的API进行SQL筛选、向量语义搜索以及与Pandas的本地接口等功能】'YOLOExplorer - YOLOExplorer : Iterate on your YOLO / CV datasets using SQL, Vector semantic search, and more within seconds' LanceDB GitHub: github.com/lancedb/yoloexplorer

【"Segment Anything"和"MobileSAM”的C++封装,运行时无Python依赖】’Segment Anything CPP Wrapper - a pure C++ inference api for Segment Anything and MobileSAM, with no dependence on Python during runtime' by dinglufe GitHub: github.com/dinglufe/segment-anything-cpp-wrapper

【可视化解释Stable Diffusion的工作原理,一步一步展示文本提示是如何生成图像的】“Diffusion Explainer - Learn how Stable Diffusion transformsyour text promptintoimage!” GitHub: github.com/poloclub/diffusion-explainer

【Rapid Latex OCR:将公式图像转为latex格式的工具】'Rapid Latex OCR - Convert images of equations into LaTeX code' RapidAI GitHub: github.com/RapidAI/RapidLatexOCR

【用Huggingface Transformers来优化文本转语音(TTS)模型,以提高推理速度和内存使用效率】《Optimizing Bark using Huggingface Transformers》 https://huggingface.co/blog/optimizing-bark

【LLaMa.cpp深度解析:讨论了使用原生C++对LLaMa推理代码进行重写,并通过一些优化和权重量化,实现在多种硬件上本地运行LLM(Large Language Model)。探讨了GPU在深度学习中的作用,指出其在内存带宽和计算能力方面的优势。对于运行LLMa的推理性能,文中进行了一些粗略的计算,涉及模型参数、内存需求、矩阵乘法等,着重强调了内存带宽在Transformer模型的采样中是限制因素,而减少模型的内存需求(如量化)对于提高服务效率很重要。介绍了在不同硬件上运行LLMa的预期性能,如A100、M1 MacBook Air和Raspberry Pi 4等。最后,强调了蒸馏和训练更小模型的重要性】《How is LLaMa.cpp possible?》 https://finbarr.ca/how-is-llama-cpp-possible/

【最新扩散模型论文集,涵盖视觉文本生成、字体生成、文本消除、文本图像超分辨率、文本编辑和手写生成等】’Recommendations of Diffusion for Text-Image - A paper collection of recent diffusion models for text-image generation tasks, e,g., visual text generation, font generation, text removal, text image super resolution, text editing, and handwritten generation.' Zhenhua Yang GitHub: github.com/yeungchenwa/Recommendations-Diffusion-Text-Image

【Youtube-to-Webpage:根据Youtube视频及对应转录文字生成视频图文解说页面的Perl脚本】’Youtube-to-Webpage - I learn much better from text than from videos' Jesse Vincent GitHub: github.com/obra/Youtube2Webpage

【为什么GPU特适合深度学习?】

  • GPU相较于CPU更快的原因在于其高效的矩阵乘法和卷积运算,但很少有人解释了为什么会如此。
  • GPU之所以快,是因为其内存带宽,而不仅仅是并行计算。CPU以低延迟为优化目标,而GPU则以高带宽为优化目标。
  • CPU可以迅速获取RAM中的少量内存(包),而GPU在此方面速度较慢(延迟较高)。然而,GPU可以一次获取更多的内存。
  • GPU之所以能在大内存块上提供最佳内存带宽,是因为线程并行性掩盖了延迟,使得GPU在大数据块上提供高带宽,同时不受延迟的影响。
  • GPU的寄存器内存比CPU多30多倍,速度则达到了两倍。这意味着GPU可以存储大量数据在寄存器和L1缓存中,以便复用卷积和矩阵乘法的片。
  • GPU的寄存器和L1缓存更易于编程,这使得它们在深度学习中非常适用。
  • 性能瓶颈主要取决于内存访问,因此GPU之所以快速适用于深度学习,是因为其高带宽主存储、线程并行性隐藏内存访问延迟,以及大而快的寄存器和L1缓存。 《Tim Dettmers's answer to Why are GPUs well-suited to deep learning? - Quora》 https://www.quora.com/Why-are-GPUs-well-suited-to-deep-learning/answer/Tim-Dettmers-1

ICCV2023 Demo集 https://huggingface.co/collections/ICCV2023/iccv-2023-demos-651dce77682adc4dcf303450

《多模态和多模态大模型 (LMM) | Multimodality and Large Multimodal Models (LMMs)》这篇文章非常赞👍🏻 基本讲清楚了多模态和多模态大模型(LMMs)。 https://huyenchip.com/2023/10/10/multimodal.html 文章主要分三部分:

  • 第一部分涵盖了多模态的背景,包括为什么要使用多模态、不同的数据模态以及多模态任务的类型。
  • 第二部分深入探讨了多模态系统的神奇之处。通过 CLIP 这个例子,我们可以看到它如何为未来的系统铺平了道路;而 Flamingo 的出色表现,则为 LMMs 这类技术带来了新的启示。
  • 第三部分带我们走进 LMMs 的研究前沿,看看如何生成多模态的结果,以及如何更高效地进行多模态训练。当然,还会介绍一些新晋的多模态技术,例如 BLIP-2、LLaVA、LLaMA-Adapter V2 和 LAVIN。

【Can my GPU run this LLM?:用于计算在训练或推理大型语言模型(LLM)时所需的GPU内存的工具,包括详细的内存分配情况。工具支持不同的量化技术,包括GGML和bnb(bitsandbytes),以帮助用户选择适合其GPU的模型量化方式】'Can my GPU run this LLM? - Calculate GPU memory requirement & breakdown for training/inference of LLM models. Supports ggml/bnb quantization' Rahul Shiv Chand GitHub: github.com/RahulSChand/gpu_poor

【The Interactive Transformer:用于理解和解释Transformer的可视化界面】'The Interactive Transformer - A visual interface for understanding and interpreting Transformers' Yi Zhe Ang GitHub: github.com/yizhe-ang/interactive-transformer

产品级深度学习系统入门指南 地址:github.com/alirezadir/Production-Level-Deep-Learning 本文可以作为一篇工程指南去构建一个产品级的深度学习系统,并且该系统可以部署在真实的生产环境中。

《高并发的哲学原理 Philosophical Principles of High Concurrency》简称《PPHC》 https://pphc.lvwenhan.com/?continueFlag=d2d539229d1229db64d5eb77e293b25d

《Ollama —— 在本地启动并运行大语言模型》 项目地址:https://www.oschina.net/p/ollama Ollama 是一款命令行工具,可在 macOS 和 Linux 上本地运行 Llama 2、Code Llama 和其他模型。目前适用于 macOS 和 Linux,并计划支持 Windows。 Ollama 目前支持近二十多个语言模型系列,每个模型系列都有许多可用的 "tags"。Tags 是模型的变体,这些模型使用不同的微调方法以不同的规模进行训练,并以不同的级别进行量化,以便在本地良好运行。量化级别越高,模型越精确,但运行速度越慢,所需的内存也越大。

【flopth:可以计算和可视化Pytorch模型的FLOPs和参数数量,提供了方便的命令行工具和Python API来展示每层的信息,支持输入有多个张量,模型初始化的参数,以及每个层占总算力和参数的比例】’flopth - A simple program to calculate and visualize the FLOPs and Parameters of Pytorch models, with handy CLI and easy-to-use Python API.' Yunfeng Wang GitHub: github.com/vra/flopth

【机器学习和深度学习应避免的7种错误】

  • 使用低质量数据——缺失数据、噪音数据、不具代表性的数据都会降低模型性能。
  • 忽略离群值——离群数据点会对模型产生较大影响,需要妥善处理。
  • 数据集太大或太小——数据集需要适中且高质量,过大或过小会导致过拟合或欠拟合。
  • 使用性能不足的硬件——深度学习需要高性能计算资源,使用老旧系统会限制性能。
  • 集成错误——需要谨慎地将深度学习技术集成到旧系统中。
  • 重复使用单一模型——应该训练和评估多个模型,获得更全面的结果。
  • 首个模型就想要最佳效果——不同模型各有擅长,需要迭代和变化来获得鲁棒结果。 https://www.exxactcorp.com/blog/Deep-Learning/7-Common-Machine-Learning-and-Deep-Learning-Mistakes-and-Limitations-to-Avoid

【GraphWriter:为Tensorboard SummaryWriter提供的强大、交互式及视觉友好的封装,可在终端提供实时训练监控和统计分析功能,为深度学习训练工作提供了一站式实时可视化解决方案】’GraphWriter - A wrapper for TensorBoard SummaryWriter with real-time terminal visualization using the Rich library.' STAS Nicolas GitHub: github.com/COLVERTYETY/GraphWriter

[LG]《Simplifying Transformer Blocks》https://arxiv.org/abs/2311.01906 通过信号传播理论和实证观察,提出一种简化Transformer模块的方法,移除了多个组件,提高了训练吞吐量并减少了参数数量。

【LLaVaVision:用llama.cpp/llava实现的简单摄像头画面描述App】’LLaVaVision - A simple "Be My Eyes" web app with a llama.cpp/llava backend' Aleksey Smolenchuk GitHub: github.com/lxe/llavavision

提出一种统一的神经架构,用于视觉识别和推理,通过系统研究不同的视觉识别任务对推理能力的影响,发现目标检测对推理任务最有益,并展示了隐式的物体中心表示的生成。 https://arxiv.org/abs/2311.06386 [CV]《Towards A Unified Neural Architecture for Visual Recognition and Reasoning》C Luo, B Gong, T Chen, C Sun [Google & Brown University] (2023)

Dify 是一个 LLM 应用开发平台,融合了 Backend as Service 和 LLMOps 的理念。使用 Dify,你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力。 github.com/langgenius/dify ​​​

[CV] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
https://arxiv.org/abs/2311.17049 提出一种节能和实时性能强的图像文本模型MobileCLIP及其训练方法。MobileCLIP使用混合卷积-Transformer结构的图像和文本编码器,实现了低延迟且高准确度。提出一种多模态增强训练方法,利用图像解释模型生成的合成字幕和集成老师模型的向量来帮助训练,显著提高了学习效率。MobileCLIP共设计了S0、S1、S2和B四个变体,它们在延迟和容量上实现了不同水平的平衡。其中S0变体的延迟相比标准的ViT-B/16基于CLIP模型小5倍,但平均准确度保持一致。文章还显示,在1B级训练规模下,MobileCLIP-B实现了多项指标的新领先水平。总体而言,本文通过混合卷积-Transformer结构设计了移动端优化的图像文本模型MobileCLIP,提出利用合成字幕和集成知识增强训练数据集的方法,实现了灵活平衡延迟和准确度的网络变体。文章证明MobileCLIP家族在零样本分类和检索任务上取得了领先性能,为移动端部署机器学习服务提供了有意义的实践。