Merge branch 'master' into add-kendra-document-relevance-config

langchain-ai · Apr 24, 2024 · db495c9 · db495c9
2 parents 8327d22 + 9e983c9
commit db495c9
Show file tree

Hide file tree

Showing 309 changed files with 9,527 additions and 2,338 deletions.
diff --git a/.github/workflows/_release.yml b/.github/workflows/_release.yml
@@ -112,7 +112,7 @@ jobs:
           PKG_NAME: ${{ needs.build.outputs.pkg-name }}
           VERSION: ${{ needs.build.outputs.version }}
         # Here we use:
-        # - The default regular PyPI index as the *primary* index, meaning 
+        # - The default regular PyPI index as the *primary* index, meaning
         #   that it takes priority (https://pypi.org/simple)
         # - The test PyPI index as an extra index, so that any dependencies that
         #   are not found on test PyPI can be resolved and installed anyway.

diff --git a/.github/workflows/scheduled_test.yml b/.github/workflows/scheduled_test.yml
@@ -19,11 +19,11 @@ jobs:
         working-directory:
           - "libs/partners/openai"
           - "libs/partners/anthropic"
-          # - "libs/partners/ai21"  # standard-tests broken
+          - "libs/partners/ai21"
           - "libs/partners/fireworks"
-          # - "libs/partners/groq"  # rate-limited
+          - "libs/partners/groq"
           - "libs/partners/mistralai"
-          # - "libs/partners/together"  # rate-limited
+          - "libs/partners/together"
     name: Python ${{ matrix.python-version }} - ${{ matrix.working-directory }}
     steps:
       - uses: actions/checkout@v4

diff --git a/cookbook/Multi_modal_RAG.ipynb b/cookbook/Multi_modal_RAG.ipynb
@@ -604,7 +604,7 @@
    "source": [
     "# Check retrieval\n",
     "query = \"Give me company names that are interesting investments based on EV / NTM and NTM rev growth. Consider EV / NTM multiples vs historical?\"\n",
-    "docs = retriever_multi_vector_img.get_relevant_documents(query, limit=6)\n",
+    "docs = retriever_multi_vector_img.invoke(query, limit=6)\n",
     "\n",
     "# We get 4 docs\n",
     "len(docs)"
@@ -630,7 +630,7 @@
    "source": [
     "# Check retrieval\n",
     "query = \"What are the EV / NTM and NTM rev growth for MongoDB, Cloudflare, and Datadog?\"\n",
-    "docs = retriever_multi_vector_img.get_relevant_documents(query, limit=6)\n",
+    "docs = retriever_multi_vector_img.invoke(query, limit=6)\n",
     "\n",
     "# We get 4 docs\n",
     "len(docs)"

diff --git a/cookbook/Multi_modal_RAG_google.ipynb b/cookbook/Multi_modal_RAG_google.ipynb
@@ -604,7 +604,7 @@
    ],
    "source": [
     "query = \"What are the EV / NTM and NTM rev growth for MongoDB, Cloudflare, and Datadog?\"\n",
-    "docs = retriever_multi_vector_img.get_relevant_documents(query, limit=1)\n",
+    "docs = retriever_multi_vector_img.invoke(query, limit=1)\n",
     "\n",
     "# We get 2 docs\n",
     "len(docs)"

diff --git a/cookbook/README.md b/cookbook/README.md
@@ -47,6 +47,7 @@ Notebook | Description
 [press_releases.ipynb](https://github.com/langchain-ai/langchain/tree/master/cookbook/press_releases.ipynb) | Retrieve and query company press release data powered by [Kay.ai](https://kay.ai).
 [program_aided_language_model.i...](https://github.com/langchain-ai/langchain/tree/master/cookbook/program_aided_language_model.ipynb) | Implement program-aided language models as described in the provided research paper.
 [qa_citations.ipynb](https://github.com/langchain-ai/langchain/tree/master/cookbook/qa_citations.ipynb) | Different ways to get a model to cite its sources.
+[rag_upstage_layout_analysis_groundedness_check.ipynb](https://github.com/langchain-ai/langchain/tree/master/cookbook/rag_upstage_layout_analysis_groundedness_check.ipynb) | End-to-end RAG example using Upstage Layout Analysis and Groundedness Check.
 [retrieval_in_sql.ipynb](https://github.com/langchain-ai/langchain/tree/master/cookbook/retrieval_in_sql.ipynb) | Perform retrieval-augmented-generation (rag) on a PostgreSQL database using pgvector.
 [sales_agent_with_context.ipynb](https://github.com/langchain-ai/langchain/tree/master/cookbook/sales_agent_with_context.ipynb) | Implement a context-aware ai sales agent, salesgpt, that can have natural sales conversations, interact with other systems, and use a product knowledge base to discuss a company's offerings.
 [self_query_hotel_search.ipynb](https://github.com/langchain-ai/langchain/tree/master/cookbook/self_query_hotel_search.ipynb) | Build a hotel room search feature with self-querying retrieval, using a specific hotel recommendation dataset.

diff --git a/cookbook/Semi_Structured_RAG.ipynb b/cookbook/Semi_Structured_RAG.ipynb
@@ -75,7 +75,7 @@
     "\n",
     "Apply to the [`LLaMA2`](https://arxiv.org/pdf/2307.09288.pdf) paper. \n",
     "\n",
-    "We use the Unstructured [`partition_pdf`](https://unstructured-io.github.io/unstructured/bricks/partition.html#partition-pdf), which segments a PDF document by using a layout model. \n",
+    "We use the Unstructured [`partition_pdf`](https://unstructured-io.github.io/unstructured/core/partition.html#partition-pdf), which segments a PDF document by using a layout model. \n",
     "\n",
     "This layout model makes it possible to extract elements, such as tables, from pdfs. \n",
     "\n",

diff --git a/cookbook/Semi_structured_and_multi_modal_RAG.ipynb b/cookbook/Semi_structured_and_multi_modal_RAG.ipynb
@@ -562,9 +562,7 @@
    ],
    "source": [
     "# We can retrieve this table\n",
-    "retriever.get_relevant_documents(\n",
-    "    \"What are results for LLaMA across across domains / subjects?\"\n",
-    ")[1]"
+    "retriever.invoke(\"What are results for LLaMA across across domains / subjects?\")[1]"
    ]
   },
   {
@@ -614,9 +612,7 @@
     }
    ],
    "source": [
-    "retriever.get_relevant_documents(\"Images / figures with playful and creative examples\")[\n",
-    "    1\n",
-    "]"
+    "retriever.invoke(\"Images / figures with playful and creative examples\")[1]"
    ]
   },
   {

diff --git a/cookbook/Semi_structured_multi_modal_RAG_LLaMA2.ipynb b/cookbook/Semi_structured_multi_modal_RAG_LLaMA2.ipynb
@@ -501,9 +501,7 @@
     }
    ],
    "source": [
-    "retriever.get_relevant_documents(\"Images / figures with playful and creative examples\")[\n",
-    "    0\n",
-    "]"
+    "retriever.invoke(\"Images / figures with playful and creative examples\")[0]"
    ]
   },
   {

diff --git a/cookbook/advanced_rag_eval.ipynb b/cookbook/advanced_rag_eval.ipynb
@@ -342,7 +342,7 @@
     "# Testing on retrieval\n",
     "query = \"What percentage of CPI is dedicated to Housing, and how does it compare to the combined percentage of Medical Care, Apparel, and Other Goods and Services?\"\n",
     "suffix_for_images = \" Include any pie charts, graphs, or tables.\"\n",
-    "docs = retriever_multi_vector_img.get_relevant_documents(query + suffix_for_images)"
+    "docs = retriever_multi_vector_img.invoke(query + suffix_for_images)"
    ]
   },
   {

diff --git a/cookbook/custom_agent_with_plugin_retrieval.ipynb b/cookbook/custom_agent_with_plugin_retrieval.ipynb
@@ -169,7 +169,7 @@
     "\n",
     "def get_tools(query):\n",
     "    # Get documents, which contain the Plugins to use\n",
-    "    docs = retriever.get_relevant_documents(query)\n",
+    "    docs = retriever.invoke(query)\n",
     "    # Get the toolkits, one for each plugin\n",
     "    tool_kits = [toolkits_dict[d.metadata[\"plugin_name\"]] for d in docs]\n",
     "    # Get the tools: a separate NLAChain for each endpoint\n",

diff --git a/cookbook/custom_agent_with_plugin_retrieval_using_plugnplai.ipynb b/cookbook/custom_agent_with_plugin_retrieval_using_plugnplai.ipynb
@@ -193,7 +193,7 @@
     "\n",
     "def get_tools(query):\n",
     "    # Get documents, which contain the Plugins to use\n",
-    "    docs = retriever.get_relevant_documents(query)\n",
+    "    docs = retriever.invoke(query)\n",
     "    # Get the toolkits, one for each plugin\n",
     "    tool_kits = [toolkits_dict[d.metadata[\"plugin_name\"]] for d in docs]\n",
     "    # Get the tools: a separate NLAChain for each endpoint\n",

diff --git a/cookbook/custom_agent_with_tool_retrieval.ipynb b/cookbook/custom_agent_with_tool_retrieval.ipynb
@@ -142,7 +142,7 @@
     "\n",
     "\n",
     "def get_tools(query):\n",
-    "    docs = retriever.get_relevant_documents(query)\n",
+    "    docs = retriever.invoke(query)\n",
     "    return [ALL_TOOLS[d.metadata[\"index\"]] for d in docs]"
    ]
   },

diff --git a/cookbook/langgraph_crag.ipynb b/cookbook/langgraph_crag.ipynb
@@ -206,7 +206,7 @@
     "    print(\"---RETRIEVE---\")\n",
     "    state_dict = state[\"keys\"]\n",
     "    question = state_dict[\"question\"]\n",
-    "    documents = retriever.get_relevant_documents(question)\n",
+    "    documents = retriever.invoke(question)\n",
     "    return {\"keys\": {\"documents\": documents, \"question\": question}}\n",
     "\n",
     "\n",

diff --git a/cookbook/langgraph_self_rag.ipynb b/cookbook/langgraph_self_rag.ipynb
@@ -213,7 +213,7 @@
     "    print(\"---RETRIEVE---\")\n",
     "    state_dict = state[\"keys\"]\n",
     "    question = state_dict[\"question\"]\n",
-    "    documents = retriever.get_relevant_documents(question)\n",
+    "    documents = retriever.invoke(question)\n",
     "    return {\"keys\": {\"documents\": documents, \"question\": question}}\n",
     "\n",
     "\n",

diff --git a/cookbook/multi_modal_RAG_chroma.ipynb b/cookbook/multi_modal_RAG_chroma.ipynb
@@ -435,7 +435,7 @@
     "    display(HTML(image_html))\n",
     "\n",
     "\n",
-    "docs = retriever.get_relevant_documents(\"Woman with children\", k=10)\n",
+    "docs = retriever.invoke(\"Woman with children\", k=10)\n",
     "for doc in docs:\n",
     "    if is_base64(doc.page_content):\n",
     "        plt_img_base64(doc.page_content)\n",

diff --git a/cookbook/multi_modal_RAG_vdms.ipynb b/cookbook/multi_modal_RAG_vdms.ipynb
@@ -443,7 +443,7 @@
     "\n",
     "\n",
     "query = \"Woman with children\"\n",
-    "docs = retriever.get_relevant_documents(query, k=10)\n",
+    "docs = retriever.invoke(query, k=10)\n",
     "\n",
     "for doc in docs:\n",
     "    if is_base64(doc.page_content):\n",

diff --git a/cookbook/rag_semantic_chunking_azureaidocintelligence.ipynb b/cookbook/rag_semantic_chunking_azureaidocintelligence.ipynb
@@ -168,7 +168,7 @@
     "\n",
     "retriever = vector_store.as_retriever(search_type=\"similarity\", search_kwargs={\"k\": 3})\n",
     "\n",
-    "retrieved_docs = retriever.get_relevant_documents(\"<your question>\")\n",
+    "retrieved_docs = retriever.invoke(\"<your question>\")\n",
     "\n",
     "print(retrieved_docs[0].page_content)\n",
     "\n",

diff --git a/cookbook/rag_upstage_layout_analysis_groundedness_check.ipynb b/cookbook/rag_upstage_layout_analysis_groundedness_check.ipynb
@@ -0,0 +1,85 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# RAG using Upstage Layout Analysis and Groundedness Check\n",
+    "This example illustrates RAG using [Upstage](https://python.langchain.com/docs/integrations/providers/upstage/) Layout Analysis and Groundedness Check."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from typing import List\n",
+    "\n",
+    "from langchain_community.vectorstores import DocArrayInMemorySearch\n",
+    "from langchain_core.documents.base import Document\n",
+    "from langchain_core.output_parsers import StrOutputParser\n",
+    "from langchain_core.prompts import ChatPromptTemplate\n",
+    "from langchain_core.runnables import RunnablePassthrough\n",
+    "from langchain_core.runnables.base import RunnableSerializable\n",
+    "from langchain_upstage import (\n",
+    "    ChatUpstage,\n",
+    "    GroundednessCheck,\n",
+    "    UpstageEmbeddings,\n",
+    "    UpstageLayoutAnalysisLoader,\n",
+    ")\n",
+    "\n",
+    "model = ChatUpstage()\n",
+    "\n",
+    "files = [\"/PATH/TO/YOUR/FILE.pdf\", \"/PATH/TO/YOUR/FILE2.pdf\"]\n",
+    "\n",
+    "loader = UpstageLayoutAnalysisLoader(file_path=files, split=\"element\")\n",
+    "\n",
+    "docs = loader.load()\n",
+    "\n",
+    "vectorstore = DocArrayInMemorySearch.from_documents(docs, embedding=UpstageEmbeddings())\n",
+    "retriever = vectorstore.as_retriever()\n",
+    "\n",
+    "template = \"\"\"Answer the question based only on the following context:\n",
+    "{context}\n",
+    "\n",
+    "Question: {question}\n",
+    "\"\"\"\n",
+    "prompt = ChatPromptTemplate.from_template(template)\n",
+    "output_parser = StrOutputParser()\n",
+    "\n",
+    "retrieved_docs = retriever.get_relevant_documents(\"How many parameters in SOLAR model?\")\n",
+    "\n",
+    "groundedness_check = GroundednessCheck()\n",
+    "groundedness = \"\"\n",
+    "while groundedness != \"grounded\":\n",
+    "    chain: RunnableSerializable = RunnablePassthrough() | prompt | model | output_parser\n",
+    "\n",
+    "    result = chain.invoke(\n",
+    "        {\n",
+    "            \"context\": retrieved_docs,\n",
+    "            \"question\": \"How many parameters in SOLAR model?\",\n",
+    "        }\n",
+    "    )\n",
+    "\n",
+    "    # convert all Documents to string\n",
+    "    def formatDocumentsAsString(docs: List[Document]) -> str:\n",
+    "        return \"\\n\".join([doc.page_content for doc in docs])\n",
+    "\n",
+    "    groundedness = groundedness_check.run(\n",
+    "        {\n",
+    "            \"context\": formatDocumentsAsString(retrieved_docs),\n",
+    "            \"query\": result,\n",
+    "        }\n",
+    "    )"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/cookbook/self_query_hotel_search.ipynb b/cookbook/self_query_hotel_search.ipynb
@@ -1227,7 +1227,7 @@
     }
    ],
    "source": [
-    "results = retriever.get_relevant_documents(\n",
+    "results = retriever.invoke(\n",
     "    \"I want to stay somewhere highly rated along the coast. I want a room with a patio and a fireplace.\"\n",
     ")\n",
     "for res in results:\n",

diff --git a/docs/.local_build.sh b/docs/.local_build.sh
@@ -19,6 +19,9 @@ poetry run python scripts/copy_templates.py
 wget -q https://raw.githubusercontent.com/langchain-ai/langserve/main/README.md -O docs/langserve.md
 wget -q https://raw.githubusercontent.com/langchain-ai/langgraph/main/README.md -O docs/langgraph.md
 
-yarn
 
-poetry run quarto preview docs
+poetry run quarto render docs
+poetry run python scripts/generate_api_reference_links.py  --docs_dir docs
+
+yarn
+yarn start
diff --git a/docs/api_reference/guide_imports.json b/docs/api_reference/guide_imports.json
diff --git a/docs/docs/get_started/quickstart.mdx b/docs/docs/get_started/quickstart.mdx
@@ -194,7 +194,7 @@ Prompt templates convert raw user input to better input to the LLM.
 ```python
 from langchain_core.prompts import ChatPromptTemplate
 prompt = ChatPromptTemplate.from_messages([
-    ("system", "You are world class technical documentation writer."),
+    ("system", "You are a world class technical documentation writer."),
     ("user", "{input}")
 ])
 ```

diff --git a/docs/docs/guides/productionization/safety/hugging_face_prompt_injection.ipynb b/docs/docs/guides/productionization/safety/hugging_face_prompt_injection.ipynb
@@ -9,7 +9,7 @@
     "\n",
     "This notebook shows how to prevent prompt injection attacks using the text classification model from `HuggingFace`.\n",
     "\n",
-    "By default, it uses a *[laiyer/deberta-v3-base-prompt-injection](https://huggingface.co/laiyer/deberta-v3-base-prompt-injection)* model trained to identify prompt injections. \n",
+    "By default, it uses a *[protectai/deberta-v3-base-prompt-injection-v2](https://huggingface.co/protectai/deberta-v3-base-prompt-injection-v2)* model trained to identify prompt injections. \n",
     "\n",
     "In this notebook, we will use the ONNX version of the model to speed up the inference. "
    ]
@@ -49,11 +49,15 @@
     "from optimum.onnxruntime import ORTModelForSequenceClassification\n",
     "from transformers import AutoTokenizer, pipeline\n",
     "\n",
-    "# Using https://huggingface.co/laiyer/deberta-v3-base-prompt-injection\n",
-    "model_path = \"laiyer/deberta-v3-base-prompt-injection\"\n",
-    "tokenizer = AutoTokenizer.from_pretrained(model_path)\n",
-    "tokenizer.model_input_names = [\"input_ids\", \"attention_mask\"]  # Hack to run the model\n",
-    "model = ORTModelForSequenceClassification.from_pretrained(model_path, subfolder=\"onnx\")\n",
+    "# Using https://huggingface.co/protectai/deberta-v3-base-prompt-injection-v2\n",
+    "model_path = \"laiyer/deberta-v3-base-prompt-injection-v2\"\n",
+    "revision = None  # We recommend specifiying the revision to avoid breaking changes or supply chain attacks\n",
+    "tokenizer = AutoTokenizer.from_pretrained(\n",
+    "    model_path, revision=revision, model_input_names=[\"input_ids\", \"attention_mask\"]\n",
+    ")\n",
+    "model = ORTModelForSequenceClassification.from_pretrained(\n",
+    "    model_path, revision=revision, subfolder=\"onnx\"\n",
+    ")\n",
     "\n",
     "classifier = pipeline(\n",
     "    \"text-classification\",\n",

diff --git a/docs/docs/integrations/chat/maritalk.ipynb b/docs/docs/integrations/chat/maritalk.ipynb
@@ -184,7 +184,7 @@
     "\n",
     "query = \"Qual o tempo máximo para realização da prova?\"\n",
     "\n",
-    "docs = retriever.get_relevant_documents(query)\n",
+    "docs = retriever.invoke(query)\n",
     "\n",
     "chain.invoke(\n",
     "    {\"input_documents\": docs, \"query\": query}\n",

diff --git a/docs/docs/integrations/document_loaders/docugami.ipynb b/docs/docs/integrations/document_loaders/docugami.ipynb
@@ -630,7 +630,7 @@
    ],
    "source": [
     "# Query retriever, should return parents (using MMR since that was set as search_type above)\n",
-    "retrieved_parent_docs = retriever.get_relevant_documents(\n",
+    "retrieved_parent_docs = retriever.invoke(\n",
     "    \"what signs does Birch Street allow on their property?\"\n",
     ")\n",
     "for chunk in retrieved_parent_docs:\n",

diff --git a/docs/docs/integrations/document_loaders/figma.ipynb b/docs/docs/integrations/document_loaders/figma.ipynb
@@ -97,7 +97,7 @@
     "    # delete the gpt-4 model_name to use the default gpt-3.5 turbo for faster results\n",
     "    gpt_4 = ChatOpenAI(temperature=0.02, model_name=\"gpt-4\")\n",
     "    # Use the retriever's 'get_relevant_documents' method if needed to filter down longer docs\n",
-    "    relevant_nodes = figma_doc_retriever.get_relevant_documents(human_input)\n",
+    "    relevant_nodes = figma_doc_retriever.invoke(human_input)\n",
     "    conversation = [system_message_prompt, human_message_prompt]\n",
     "    chat_prompt = ChatPromptTemplate.from_messages(conversation)\n",
     "    response = gpt_4(\n",

diff --git a/docs/docs/integrations/document_loaders/google_drive.ipynb b/docs/docs/integrations/document_loaders/google_drive.ipynb
@@ -50,7 +50,7 @@
    },
    "outputs": [],
    "source": [
-    "from langchain_community.document_loaders import GoogleDriveLoader"
+    "from langchain_google_community import GoogleDriveLoader"
    ]
   },
   {
@@ -339,7 +339,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from langchain_community.document_loaders import GoogleDriveLoader\n",
+    "from langchain_google_community import GoogleDriveLoader\n",
     "\n",
     "loader = GoogleDriveLoader(\n",
     "    folder_id=folder_id,\n",

diff --git a/docs/docs/integrations/document_loaders/spreedly.ipynb b/docs/docs/integrations/document_loaders/spreedly.ipynb
@@ -99,7 +99,7 @@
    ],
    "source": [
     "# Test the retriever\n",
-    "spreedly_doc_retriever.get_relevant_documents(\"CRC\")"
+    "spreedly_doc_retriever.invoke(\"CRC\")"
    ]
   },
   {
-Original file line number
+Diff line change
@@ Expand Up / @@ -501,9 +501,7 @@ @@
         }
        ],
        "source": [
-        "retriever.get_relevant_documents(\"Images / figures with playful and creative examples\")[\n",
-        "    0\n",
-        "]"
+        "retriever.invoke(\"Images / figures with playful and creative examples\")[0]"
        ]
       },
       {
@@ Expand Down @@