Здесь вы можете найти информацию по ML пайплайну и репозиторию Chem-LLM
Для создания такого же окружения воспользуйтесь зависимостями из файла environment.txt
Версия Python - 3.10.14
Приложение ollama можно скачать по ссылке:
curl -fsSL https://ollama.com/install.sh | sh
Чтобы запустить приложение:
ollama serve
Необходимые модели можно подтянуть следующим образом:
ollama pull llama3:70b-instruct-q4_K_M
ollama pull solar:latest
ollama pull llama3:70b
ollama pull mistral:latest
ollama pull mxbai-embed-large:latest
ollama pull llama3:8b
ollama pull phi3:latest
ollama pull llama3:latest
---===ПАПКИ===---
Agent_templates - папка с шаблонами структуры агентов.
*v1 - чистый RAG, неоптимизированная версия агента, графовой структурой не обладает
*v2 - имеет графовую структуру, но при любом несоответствии запроса документам использует Веб-поиск (Ключ API Tavily Web Seacrh рассчитан на конечное число бесплатных запросов, поэтому решено было от веб-поиска отказаться)
*v3 - имеет графовую структуру, является основной для агентов task_mode и task, локально обрабатывает запрос внутри себя
ChatOllama - папка с простыми обращениями к нейросети (не используйте llama для формировки документов для RAG, с этой задачей она справляется плохо) *ChatOllama_for_datasets.py - описание датасетов при помощи llama3 *ChatOllama_for_targets.py - описание свойств молекул из ChemBL и датасетов при помощи llama3
RAG_documents - папка с документами для RAG. Содержит в себе описания дескрипторов из rdkit, некоторых свойств молекул из ChemBL, а также базу промптов и общее описание задачи
RAG_templates - папка с шаблонами RAG систем прямиком из документации langgraph. Полезно скорее для понимания схем, для адаптации под реальные задачи с кодом придется поработать
---===ФАЙЛЫ===---
AgentOllama_task_mode.py - агент для выбора алгоритма МО
AgentOllama_task - агент для выбора свойств молекул
dataset.csv - датасет для обучения алгоритма МО
datasets_list.txt - список независимых датасетов
environment.txt - список зависимостей для окружения Python
launcher.py - основной лаунчер кода
llm_utils.py - вспомогательные инструменты для работы агентов
prompt_examples.txt - промпты для тестирования системы
tox21.csv - датасет для симуляции генеративного алгоритма