Langchain Integration

Anyparser provides dedicated LangChain integration packages for both Python and JavaScript, enabling you to easily incorporate document parsing into your LangChain applications.

Installation

Python
JavaScript

pip install anyparser_langchain

npm install @anyparser/langchain
# or
yarn add @anyparser/langchain

Basic Usage

Here’s how to use Anyparser as a document loader in LangChain:

Python
JavaScript

from anyparser_langchain import AnyparserLoader

# Initialize the loader with your API key
loader = AnyparserLoader(
    file_path="document.pdf",
    anyparser_api_key="your-api-key",
    format="markdown"  # LangChain works best with markdown
)

# Load the document
documents = loader.load()

# Use the documents in your LangChain pipeline
for doc in documents:
    print(f"Content: {doc.page_content}")
    print(f"Metadata: {doc.metadata}")

import { AnyparserLoader } from "@anyparser/langchain";

// Initialize the loader with your API key
const loader = new AnyparserLoader({
  filePath: "document.pdf",
  anyparserApiKey: "your-api-key",
  format: "markdown"  // LangChain works best with markdown
});

// Load the document
const documents = await loader.load();

// Use the documents in your LangChain pipeline
for (const doc of documents) {
  console.log("Content:", doc.pageContent);
  console.log("Metadata:", doc.metadata);
}

Advanced Configuration

You can customize the Anyparser loader with various options:

Python
JavaScript

loader = AnyparserLoader(
    file_path="document.pdf",
    anyparser_api_key="your-api-key",
    format="markdown",
    image=True,        # Extract images
    table=True,        # Extract tables
    encoding="utf-8"   # Specify encoding
)

const loader = new AnyparserLoader({
  filePath: "document.pdf",
  anyparserApiKey: "your-api-key",
  format: "markdown",
  image: true,        // Extract images
  table: true,        // Extract tables
  encoding: "utf-8"   // Specify encoding
});

Using with LangChain Chains

Integrate Anyparser-loaded documents into LangChain chains:

Python
JavaScript

from langchain.chains import RetrievalQA
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from anyparser_langchain import AnyparserLoader

# Load documents
loader = AnyparserLoader(
    file_path="document.pdf",
    anyparser_api_key="your-api-key"
)
documents = loader.load()

# Split text into chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)
texts = text_splitter.split_documents(documents)

# Create embeddings and store in vector database
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(texts, embeddings)

# Create a question-answering chain
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(),
    chain_type="stuff",
    retriever=vectorstore.as_retriever()
)

# Query your documents
response = qa_chain.run("What is this document about?")
print(response)

import { RetrievalQAChain } from "langchain/chains";
import { OpenAIEmbeddings } from "langchain/embeddings/openai";
import { RecursiveCharacterTextSplitter } from "langchain/text_splitter";
import { Chroma } from "langchain/vectorstores/chroma";
import { OpenAI } from "langchain/llms/openai";
import { AnyparserLoader } from "@anyparser/langchain";

// Load documents
const loader = new AnyparserLoader({
  filePath: "document.pdf",
  anyparserApiKey: "your-api-key"
});
const documents = await loader.load();

// Split text into chunks
const textSplitter = new RecursiveCharacterTextSplitter({
  chunkSize: 1000,
  chunkOverlap: 200
});
const texts = await textSplitter.splitDocuments(documents);

// Create embeddings and store in vector database
const embeddings = new OpenAIEmbeddings();
const vectorstore = await Chroma.fromDocuments(texts, embeddings);

// Create a question-answering chain
const model = new OpenAI();
const chain = RetrievalQAChain.fromLLM(
  model,
  vectorstore.asRetriever()
);

// Query your documents
const response = await chain.call({
  query: "What is this document about?"
});
console.log(response);

Error Handling

Implement proper error handling for both document loading and processing:

Python
JavaScript

try:
    loader = AnyparserLoader(
        file_path="document.pdf",
        anyparser_api_key="your-api-key"
    )
    documents = loader.load()
except Exception as e:
    print(f"Error loading document: {str(e)}")

try {
  const loader = new AnyparserLoader({
    filePath: "document.pdf",
    anyparserApiKey: "your-api-key"
  });
  const documents = await loader.load();
} catch (error) {
  console.error("Error loading document:", error.message);
}