此版本仍在开发中，尚不被认为是稳定的。对于最新的快照版本，请使用 Spring AI 1.0.1！spring-doc.cadn.net.cn

ETL 管道

提取、转换和加载（ETL）框架是检索增强生成（RAG）用例中数据处理的支柱。spring-doc.cadn.net.cn

ETL 管道编排从原始数据源到结构化向量存储的流程，确保数据采用 AI 模型检索的最佳格式。spring-doc.cadn.net.cn

RAG 用例是文本，通过从数据体中检索相关信息来增强生成模型的功能，从而提高生成输出的质量和相关性。spring-doc.cadn.net.cn

API 概述

ETL 管道创建、转换和存储Document实例。spring-doc.cadn.net.cn

这Document类包含文本、元数据和可选的其他媒体类型，如图像、音频和视频。spring-doc.cadn.net.cn

ETL 管道有三个主要组件，spring-doc.cadn.net.cn

DocumentReader实现Supplier<List<Document>>spring-doc.cadn.net.cn
DocumentTransformer实现Function<List<Document>, List<Document>>spring-doc.cadn.net.cn
DocumentWriter实现Consumer<List<Document>>spring-doc.cadn.net.cn

这Document类内容是在 PDF、文本文件和其他文档类型的帮助下创建的DocumentReader.spring-doc.cadn.net.cn

要构造一个简单的 ETL 管道，您可以将每种类型的实例链接在一起。spring-doc.cadn.net.cn

假设我们有这三种 ETL 类型的以下实例spring-doc.cadn.net.cn

PagePdfDocumentReader实现DocumentReaderspring-doc.cadn.net.cn
TokenTextSplitter实现DocumentTransformerspring-doc.cadn.net.cn
VectorStore实现DocumentWriterspring-doc.cadn.net.cn

要将数据基本加载到矢量数据库中以与检索增强生成模式一起使用，请使用 Java 函数样式语法中的以下代码。spring-doc.cadn.net.cn

vectorStore.accept(tokenTextSplitter.apply(pdfReader.get()));

或者，您可以使用更自然地表达域的方法名称spring-doc.cadn.net.cn

vectorStore.write(tokenTextSplitter.split(pdfReader.read()));

ETL 接口

ETL 管道由以下接口和实现组成。详细的 ETL 类图显示在 ETL 类图部分。spring-doc.cadn.net.cn

文档阅读器

提供来自不同来源的文档来源。spring-doc.cadn.net.cn

public interface DocumentReader extends Supplier<List<Document>> {

    default List<Document> read() {
		return get();
	}
}

文档转换器

将一批文档作为处理工作流的一部分进行转换。spring-doc.cadn.net.cn

public interface DocumentTransformer extends Function<List<Document>, List<Document>> {

    default List<Document> transform(List<Document> transform) {
		return apply(transform);
	}
}

文档编写器

管理 ETL 流程的最后阶段，准备要存储的文档。spring-doc.cadn.net.cn

public interface DocumentWriter extends Consumer<List<Document>> {

    default void write(List<Document> documents) {
		accept(documents);
	}
}

ETL 类图

以下类图演示了 ETL 接口和实现。spring-doc.cadn.net.cn

文档阅读器

JSON

这JsonReader处理 JSON 文档，将它们转换为Document对象。spring-doc.cadn.net.cn

示例

@Component
class MyJsonReader {

	private final Resource resource;

    MyJsonReader(@Value("classpath:bikes.json") Resource resource) {
        this.resource = resource;
    }

	List<Document> loadJsonAsDocuments() {
        JsonReader jsonReader = new JsonReader(this.resource, "description", "content");
        return jsonReader.get();
	}
}

构造函数选项

这JsonReader提供了几个构造函数选项：spring-doc.cadn.net.cn

JsonReader(Resource resource)spring-doc.cadn.net.cn
JsonReader(Resource resource, String… jsonKeysToUse)spring-doc.cadn.net.cn
JsonReader(Resource resource, JsonMetadataGenerator jsonMetadataGenerator, String… jsonKeysToUse)spring-doc.cadn.net.cn

参数

resource： SpringResource指向 JSON 文件的对象。spring-doc.cadn.net.cn
jsonKeysToUse：JSON 中的键数组，应用作生成的文本内容Document对象。spring-doc.cadn.net.cn
jsonMetadataGenerator：可选JsonMetadataGenerator为每个Document.spring-doc.cadn.net.cn

行为

这JsonReader按如下方式处理 JSON 内容：spring-doc.cadn.net.cn

它可以处理 JSON 数组和单个 JSON 对象。spring-doc.cadn.net.cn
对于每个 JSON 对象（在数组或单个对象中）：spring-doc.cadn.net.cn
- 它根据指定的jsonKeysToUse.spring-doc.cadn.net.cn
- 如果未指定键，则使用整个 JSON 对象作为内容。spring-doc.cadn.net.cn
- 它使用提供的JsonMetadataGenerator（如果未提供，则为空的）。spring-doc.cadn.net.cn
- 它创建了一个Document对象，其中包含提取的内容和元数据。spring-doc.cadn.net.cn

使用 JSON 指针

这JsonReader现在支持使用 JSON 指针检索 JSON 文档的特定部分。此功能允许您轻松地从复杂的 JSON 结构中提取嵌套数据。spring-doc.cadn.net.cn

这`get(String pointer)`方法

public List<Document> get(String pointer)

此方法允许您使用 JSON 指针检索 JSON 文档的特定部分。spring-doc.cadn.net.cn

参数

pointer：JSON 指针字符串（如 RFC 6901 中定义），用于在 JSON 结构中定位所需元素。spring-doc.cadn.net.cn

返回值

返回一个List<Document>包含从指针定位的 JSON 元素解析的文档。spring-doc.cadn.net.cn

行为

该方法使用提供的 JSON 指针导航到 JSON 结构中的特定位置。spring-doc.cadn.net.cn
如果指针有效并指向现有元素：spring-doc.cadn.net.cn
- 对于 JSON 对象：它返回一个包含单个文档的列表。spring-doc.cadn.net.cn
- 对于 JSON 数组：它返回一个文档列表，数组中的每个元素一个。spring-doc.cadn.net.cn
如果指针无效或指向不存在的元素，它会抛出一个IllegalArgumentException.spring-doc.cadn.net.cn

示例

JsonReader jsonReader = new JsonReader(resource, "description");
List<Document> documents = this.jsonReader.get("/store/books/0");

JSON 结构示例

[
  {
    "id": 1,
    "brand": "Trek",
    "description": "A high-performance mountain bike for trail riding."
  },
  {
    "id": 2,
    "brand": "Cannondale",
    "description": "An aerodynamic road bike for racing enthusiasts."
  }
]

在此示例中，如果JsonReader配置为"description"作为jsonKeysToUse，它将创建Document对象，其中内容是数组中每辆自行车的“描述”字段的值。spring-doc.cadn.net.cn

笔记

这JsonReader使用 Jackson 进行 JSON 解析。spring-doc.cadn.net.cn
它可以通过使用数组流来有效地处理大型 JSON 文件。spring-doc.cadn.net.cn
如果在jsonKeysToUse，内容将是这些键的值的串联。spring-doc.cadn.net.cn
阅读器非常灵活，可以通过自定义jsonKeysToUse和JsonMetadataGenerator.spring-doc.cadn.net.cn

文本

这TextReader处理纯文本文档，将其转换为Document对象。spring-doc.cadn.net.cn

示例

@Component
class MyTextReader {

    private final Resource resource;

    MyTextReader(@Value("classpath:text-source.txt") Resource resource) {
        this.resource = resource;
    }

	List<Document> loadText() {
		TextReader textReader = new TextReader(this.resource);
		textReader.getCustomMetadata().put("filename", "text-source.txt");

		return textReader.read();
    }
}

构造函数选项

这TextReader提供两个构造函数选项：spring-doc.cadn.net.cn

TextReader(String resourceUrl)spring-doc.cadn.net.cn
TextReader(Resource resource)spring-doc.cadn.net.cn

参数

resourceUrl：表示要读取的资源的 URL 的字符串。spring-doc.cadn.net.cn
resource： SpringResource指向文本文件的对象。spring-doc.cadn.net.cn

配置

setCharset(Charset charset)：设置用于读取文本文件的字符集。默认值为 UTF-8。spring-doc.cadn.net.cn
getCustomMetadata()：返回一个可变映射，您可以在其中为文档添加自定义元数据。spring-doc.cadn.net.cn

行为

这TextReader按如下方式处理文本内容：spring-doc.cadn.net.cn

它将文本文件的全部内容读取为一个Document对象。spring-doc.cadn.net.cn
文件的内容将成为Document.spring-doc.cadn.net.cn
元数据会自动添加到Document:spring-doc.cadn.net.cn
- charset：用于读取文件的字符集（默认值：“UTF-8”）。spring-doc.cadn.net.cn
- source：源文本文件的文件名。spring-doc.cadn.net.cn
通过getCustomMetadata()包含在Document.spring-doc.cadn.net.cn

笔记

这TextReader将整个文件内容读入内存，因此可能不适合非常大的文件。spring-doc.cadn.net.cn
如果您需要将文本拆分为更小的块，您可以使用文本拆分器，例如TokenTextSplitter阅读文档后：spring-doc.cadn.net.cn

List<Document> documents = textReader.get();
List<Document> splitDocuments = new TokenTextSplitter().apply(this.documents);

阅读器使用 Spring 的Resource抽象，允许它从各种来源（类路径、文件系统、URL 等）读取。spring-doc.cadn.net.cn
自定义元数据可以添加到读者使用getCustomMetadata()方法。spring-doc.cadn.net.cn

HTML （JSoup）

这JsoupDocumentReader处理 HTML 文档，将它们转换为Document对象。spring-doc.cadn.net.cn

示例

@Component
class MyHtmlReader {

    private final Resource resource;

    MyHtmlReader(@Value("classpath:/my-page.html") Resource resource) {
        this.resource = resource;
    }

    List<Document> loadHtml() {
        JsoupDocumentReaderConfig config = JsoupDocumentReaderConfig.builder()
            .selector("article p") // Extract paragraphs within <article> tags
            .charset("ISO-8859-1")  // Use ISO-8859-1 encoding
            .includeLinkUrls(true) // Include link URLs in metadata
            .metadataTags(List.of("author", "date")) // Extract author and date meta tags
            .additionalMetadata("source", "my-page.html") // Add custom metadata
            .build();

        JsoupDocumentReader reader = new JsoupDocumentReader(this.resource, config);
        return reader.get();
    }
}

这JsoupDocumentReaderConfig允许您自定义JsoupDocumentReader:spring-doc.cadn.net.cn

charset：指定 HTML 文档的字符编码（默认为“UTF-8”）。spring-doc.cadn.net.cn
selector：一个 JSoup CSS 选择器，用于指定从中提取文本的元素（默认为“body”）。spring-doc.cadn.net.cn
separator：用于连接来自多个选定元素的文本的字符串（默认为“\n”）。spring-doc.cadn.net.cn
allElements：如果true，从<body>元素，忽略selector（默认为false).spring-doc.cadn.net.cn
groupByElement：如果true，创建一个单独的Document对于与selector（默认为false).spring-doc.cadn.net.cn
includeLinkUrls：如果true，提取绝对链接 URL 并将其添加到元数据中（默认为false).spring-doc.cadn.net.cn
metadataTags：列表<meta>要从中提取内容的标记名称（默认为["description", "keywords"]).spring-doc.cadn.net.cn
additionalMetadata：允许您将自定义元数据添加到所有创建的Document对象。spring-doc.cadn.net.cn

示例文档：my-page.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>My Web Page</title>
    <meta name="description" content="A sample web page for Spring AI">
    <meta name="keywords" content="spring, ai, html, example">
    <meta name="author" content="John Doe">
    <meta name="date" content="2024-01-15">
    <link rel="stylesheet" href="style.css">
</head>
<body>
    <header>
        <h1>Welcome to My Page</h1>
    </header>
    <nav>
        <ul>
            <li><a href="/">Home</a></li>
            <li><a href="/about">About</a></li>
        </ul>
    </nav>
    <article>
        <h2>Main Content</h2>
        <p>This is the main content of my web page.</p>
        <p>It contains multiple paragraphs.</p>
        <a href="https://www.example.com">External Link</a>
    </article>
    <footer>
        <p>&copy; 2024 John Doe</p>
    </footer>
</body>
</html>

行为：spring-doc.cadn.net.cn

这JsoupDocumentReader处理 HTML 内容并创建Document基于配置的对象：spring-doc.cadn.net.cn

这selector确定哪些元素用于文本提取。spring-doc.cadn.net.cn
如果allElements是true，则<body>被提取成单个Document.spring-doc.cadn.net.cn
如果groupByElement是true，每个元素都与selector创建一个单独的Document.spring-doc.cadn.net.cn
如果两者都不是allElements也不groupByElement是true，文本来自与selector使用separator.spring-doc.cadn.net.cn
文档标题，指定内容<meta>标记，并且（可选）链接 URL 被添加到Document元数据。spring-doc.cadn.net.cn
用于解析相对链接的基本 URI 将从 URL 资源中提取。spring-doc.cadn.net.cn

阅读器保留所选元素的文本内容，但删除其中的任何 HTML 标签。spring-doc.cadn.net.cn

降价

这MarkdownDocumentReader处理 Markdown 文档，将它们转换为Document对象。spring-doc.cadn.net.cn

示例

@Component
class MyMarkdownReader {

    private final Resource resource;

    MyMarkdownReader(@Value("classpath:code.md") Resource resource) {
        this.resource = resource;
    }

    List<Document> loadMarkdown() {
        MarkdownDocumentReaderConfig config = MarkdownDocumentReaderConfig.builder()
            .withHorizontalRuleCreateDocument(true)
            .withIncludeCodeBlock(false)
            .withIncludeBlockquote(false)
            .withAdditionalMetadata("filename", "code.md")
            .build();

        MarkdownDocumentReader reader = new MarkdownDocumentReader(this.resource, config);
        return reader.get();
    }
}

这MarkdownDocumentReaderConfig允许您自定义 MarkdownDocumentReader 的行为：spring-doc.cadn.net.cn

horizontalRuleCreateDocument：设置为true，则 Markdown 中的水平规则将创建新的Document对象。spring-doc.cadn.net.cn
includeCodeBlock：设置为true，代码块将包含在相同的Document作为周围的文字。什么时候false，代码块创建单独的Document对象。spring-doc.cadn.net.cn
includeBlockquote：设置为true，块引用将包含在相同的Document作为周围的文字。什么时候false，块引用创建单独的Document对象。spring-doc.cadn.net.cn
additionalMetadata：允许您将自定义元数据添加到所有创建的Document对象。spring-doc.cadn.net.cn

示例文档：code.md

This is a Java sample application:

```java
package com.example.demo;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

@SpringBootApplication
public class DemoApplication {
    public static void main(String[] args) {
        SpringApplication.run(DemoApplication.class, args);
    }
}
```

Markdown also provides the possibility to `use inline code formatting throughout` the entire sentence.

---

Another possibility is to set block code without specific highlighting:

```
./mvnw spring-javaformat:apply
```

行为：MarkdownDocumentReader 处理 Markdown 内容并根据配置创建 Document 对象：spring-doc.cadn.net.cn

标头成为文档对象中的元数据。spring-doc.cadn.net.cn
段落成为文档对象的内容。spring-doc.cadn.net.cn
代码块可以分离成自己的 Document 对象或包含在周围的文本中。spring-doc.cadn.net.cn
块引号可以分离成自己的 Document 对象或包含在周围的文本中。spring-doc.cadn.net.cn
水平尺可用于将内容拆分为单独的文档对象。spring-doc.cadn.net.cn

阅读器在 Document 对象的内容中保留内联代码、列表和文本样式等格式。spring-doc.cadn.net.cn

PDF页面

这PagePdfDocumentReader使用 Apache PdfBox 库解析 PDF 文档spring-doc.cadn.net.cn

使用 Maven 或 Gradle 将依赖项添加到您的项目中。spring-doc.cadn.net.cn

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-pdf-document-reader</artifactId>
</dependency>

或 Gradlebuild.gradle构建文件。spring-doc.cadn.net.cn

dependencies {
    implementation 'org.springframework.ai:spring-ai-pdf-document-reader'
}

示例

@Component
public class MyPagePdfDocumentReader {

	List<Document> getDocsFromPdf() {

		PagePdfDocumentReader pdfReader = new PagePdfDocumentReader("classpath:/sample1.pdf",
				PdfDocumentReaderConfig.builder()
					.withPageTopMargin(0)
					.withPageExtractedTextFormatter(ExtractedTextFormatter.builder()
						.withNumberOfTopTextLinesToDelete(0)
						.build())
					.withPagesPerDocument(1)
					.build());

		return pdfReader.read();
    }

}

PDF段落

这ParagraphPdfDocumentReader使用 PDF 目录（例如 TOC）信息将输入的 PDF 拆分为文本段落并输出单个Document每个段落。注意：并非所有 PDF 文档都包含 PDF 目录。spring-doc.cadn.net.cn

依赖

使用 Maven 或 Gradle 将依赖项添加到您的项目中。spring-doc.cadn.net.cn

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-pdf-document-reader</artifactId>
</dependency>

或 Gradlebuild.gradle构建文件。spring-doc.cadn.net.cn

dependencies {
    implementation 'org.springframework.ai:spring-ai-pdf-document-reader'
}

示例

@Component
public class MyPagePdfDocumentReader {

	List<Document> getDocsFromPdfWithCatalog() {

        ParagraphPdfDocumentReader pdfReader = new ParagraphPdfDocumentReader("classpath:/sample1.pdf",
                PdfDocumentReaderConfig.builder()
                    .withPageTopMargin(0)
                    .withPageExtractedTextFormatter(ExtractedTextFormatter.builder()
                        .withNumberOfTopTextLinesToDelete(0)
                        .build())
                    .withPagesPerDocument(1)
                    .build());

	    return pdfReader.read();
    }
}

蒂卡（DOCX、PPTX、HTML......

这TikaDocumentReader使用 Apache Tika 从各种文档格式中提取文本，例如 PDF、DOC/DOCX、PPT/PPTX 和 HTML。有关支持格式的完整列表，请参阅 Tika 文档。spring-doc.cadn.net.cn

依赖

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-tika-document-reader</artifactId>
</dependency>

或 Gradlebuild.gradle构建文件。spring-doc.cadn.net.cn

dependencies {
    implementation 'org.springframework.ai:spring-ai-tika-document-reader'
}

示例

@Component
class MyTikaDocumentReader {

    private final Resource resource;

    MyTikaDocumentReader(@Value("classpath:/word-sample.docx")
                            Resource resource) {
        this.resource = resource;
    }

    List<Document> loadText() {
        TikaDocumentReader tikaDocumentReader = new TikaDocumentReader(this.resource);
        return tikaDocumentReader.read();
    }
}

变形金刚

文本拆分器

这TextSplitter一个抽象基类，有助于划分文档以适应 AI 模型的上下文窗口。spring-doc.cadn.net.cn

Tokens文本拆分器

这TokenTextSplitter是TextSplitter使用 CL100K_BASE 编码根据Tokens计数将文本拆分为块。spring-doc.cadn.net.cn

用法

@Component
class MyTokenTextSplitter {

    public List<Document> splitDocuments(List<Document> documents) {
        TokenTextSplitter splitter = new TokenTextSplitter();
        return splitter.apply(documents);
    }

    public List<Document> splitCustomized(List<Document> documents) {
        TokenTextSplitter splitter = new TokenTextSplitter(1000, 400, 10, 5000, true);
        return splitter.apply(documents);
    }
}

构造函数选项

这TokenTextSplitter提供两个构造函数选项：spring-doc.cadn.net.cn

TokenTextSplitter()：使用默认设置创建分割器。spring-doc.cadn.net.cn
TokenTextSplitter(int defaultChunkSize, int minChunkSizeChars, int minChunkLengthToEmbed, int maxNumChunks, boolean keepSeparator)spring-doc.cadn.net.cn

参数

defaultChunkSize：每个文本块的目标大小（以Tokens为单位）（默认值：800）。spring-doc.cadn.net.cn
minChunkSizeChars：每个文本块的最小大小（以字符为单位）（默认值：350）。spring-doc.cadn.net.cn
minChunkLengthToEmbed：要包含的块的最小长度（默认值：5）。spring-doc.cadn.net.cn
maxNumChunks：从文本生成的最大块数（默认：10000）。spring-doc.cadn.net.cn
keepSeparator：是否在块中保留分隔符（如换行符）（默认值：true）。spring-doc.cadn.net.cn

行为

这TokenTextSplitter按如下方式处理文本内容：spring-doc.cadn.net.cn

它使用CL100K_BASE编码将输入文本编码为标记。spring-doc.cadn.net.cn
它根据defaultChunkSize.spring-doc.cadn.net.cn
对于每个块：spring-doc.cadn.net.cn
1. 它将块解码回文本。spring-doc.cadn.net.cn
2. 它试图在minChunkSizeChars.spring-doc.cadn.net.cn
3. 如果找到断点，它会截断该点的块。spring-doc.cadn.net.cn
4. 它修剪块并可选择根据keepSeparator设置。spring-doc.cadn.net.cn
5. 如果生成的块长于minChunkLengthToEmbed，则将其添加到输出中。spring-doc.cadn.net.cn
此过程一直持续到处理完所有Tokens或maxNumChunks已达到。spring-doc.cadn.net.cn
如果剩余文本的长度超过minChunkLengthToEmbed.spring-doc.cadn.net.cn

示例

Document doc1 = new Document("This is a long piece of text that needs to be split into smaller chunks for processing.",
        Map.of("source", "example.txt"));
Document doc2 = new Document("Another document with content that will be split based on token count.",
        Map.of("source", "example2.txt"));

TokenTextSplitter splitter = new TokenTextSplitter();
List<Document> splitDocuments = this.splitter.apply(List.of(this.doc1, this.doc2));

for (Document doc : splitDocuments) {
    System.out.println("Chunk: " + doc.getContent());
    System.out.println("Metadata: " + doc.getMetadata());
}

笔记

这TokenTextSplitterCL100K_BASE使用jtokkit库，与较新的 OpenAI 模型兼容。spring-doc.cadn.net.cn
拆分器尝试通过尽可能打破句子边界来创建语义上有意义的块。spring-doc.cadn.net.cn
原始文档中的元数据将被保留并复制到从该文档派生的所有块中。spring-doc.cadn.net.cn
如果出现以下情况，原始文档中的内容格式化程序（如果设置）也会复制到派生块中copyContentFormatter设置为true（默认行为）。spring-doc.cadn.net.cn
该拆分器对于为具有Tokens限制的大型语言模型准备文本特别有用，确保每个块都在模型的处理能力范围内。spring-doc.cadn.net.cn

内容格式转换器

确保所有文档的内容格式统一。spring-doc.cadn.net.cn

关键字元数据丰富器

这KeywordMetadataEnricher是一个DocumentTransformer使用生成式 AI 模型从文档内容中提取关键字并将其添加为元数据。spring-doc.cadn.net.cn

用法

@Component
class MyKeywordEnricher {

    private final ChatModel chatModel;

    MyKeywordEnricher(ChatModel chatModel) {
        this.chatModel = chatModel;
    }

    List<Document> enrichDocuments(List<Document> documents) {
        KeywordMetadataEnricher enricher = KeywordMetadataEnricher.builder(chatModel)
                .keywordCount(5)
                .build();

        // Or use custom templates
        KeywordMetadataEnricher enricher = KeywordMetadataEnricher.builder(chatModel)
               .keywordsTemplate(YOUR_CUSTOM_TEMPLATE)
               .build();

        return enricher.apply(documents);
    }
}

构造函数选项

这KeywordMetadataEnricher提供两个构造函数选项：spring-doc.cadn.net.cn

KeywordMetadataEnricher(ChatModel chatModel, int keywordCount)：使用默认模板并提取指定数量的关键字。spring-doc.cadn.net.cn
KeywordMetadataEnricher(ChatModel chatModel, PromptTemplate keywordsTemplate)：使用自定义模板进行关键字提取。spring-doc.cadn.net.cn

行为

这KeywordMetadataEnricher按如下方式处理文档：spring-doc.cadn.net.cn

对于每个输入文档，它会使用文档的内容创建一个提示。spring-doc.cadn.net.cn
它将此提示发送到提供的ChatModel生成关键字。spring-doc.cadn.net.cn
生成的关键字将添加到文档的元数据中，键“excerpt_keywords”下。spring-doc.cadn.net.cn
将返回扩充的文档。spring-doc.cadn.net.cn

定制

您可以使用默认模板，也可以通过 keywordsTemplate 参数自定义模板。默认模板为：spring-doc.cadn.net.cn

\{context_str}. Give %s unique keywords for this document. Format as comma separated. Keywords:

哪里{context_str}替换为文档内容，并且%s替换为指定的关键字计数。spring-doc.cadn.net.cn

示例

ChatModel chatModel = // initialize your chat model
KeywordMetadataEnricher enricher = KeywordMetadataEnricher.builder(chatModel)
                .keywordCount(5)
                .build();

// Or use custom templates
KeywordMetadataEnricher enricher = KeywordMetadataEnricher.builder(chatModel)
                .keywordsTemplate(new PromptTemplate("Extract 5 important keywords from the following text and separate them with commas:\n{context_str}"))
                .build();

Document doc = new Document("This is a document about artificial intelligence and its applications in modern technology.");

List<Document> enrichedDocs = enricher.apply(List.of(this.doc));

Document enrichedDoc = this.enrichedDocs.get(0);
String keywords = (String) this.enrichedDoc.getMetadata().get("excerpt_keywords");
System.out.println("Extracted keywords: " + keywords);

笔记

这KeywordMetadataEnricher需要功能ChatModel生成关键字。spring-doc.cadn.net.cn
关键字计数必须为 1 或更大。spring-doc.cadn.net.cn
扩充器将“excerpt_keywords”元数据字段添加到每个已处理的文档中。spring-doc.cadn.net.cn
生成的关键字将作为逗号分隔的字符串返回。spring-doc.cadn.net.cn
此扩充器对于提高文档可搜索性和为文档生成标签或类别特别有用。spring-doc.cadn.net.cn
在 Builder 模式中，如果keywordsTemplate参数设置时，keywordCount参数将被忽略。spring-doc.cadn.net.cn

SummaryMetadataEnricher

这SummaryMetadataEnricher是一个DocumentTransformer它使用生成式 AI 模型为文档创建摘要并将其添加为元数据。它可以为当前文档以及相邻文档（上一个和下一个）生成摘要。spring-doc.cadn.net.cn

用法

@Configuration
class EnricherConfig {

    @Bean
    public SummaryMetadataEnricher summaryMetadata(OpenAiChatModel aiClient) {
        return new SummaryMetadataEnricher(aiClient,
            List.of(SummaryType.PREVIOUS, SummaryType.CURRENT, SummaryType.NEXT));
    }
}

@Component
class MySummaryEnricher {

    private final SummaryMetadataEnricher enricher;

    MySummaryEnricher(SummaryMetadataEnricher enricher) {
        this.enricher = enricher;
    }

    List<Document> enrichDocuments(List<Document> documents) {
        return this.enricher.apply(documents);
    }
}

构造函数

这SummaryMetadataEnricher提供了两个构造函数：spring-doc.cadn.net.cn

SummaryMetadataEnricher(ChatModel chatModel, List<SummaryType> summaryTypes)spring-doc.cadn.net.cn
SummaryMetadataEnricher(ChatModel chatModel, List<SummaryType> summaryTypes, String summaryTemplate, MetadataMode metadataMode)spring-doc.cadn.net.cn

参数

chatModel：用于生成摘要的 AI 模型。spring-doc.cadn.net.cn
summaryTypes：列表SummaryType枚举值，指示要生成哪些摘要（PREVIOUS、CURRENT、NEXT）。spring-doc.cadn.net.cn
summaryTemplate：用于生成摘要的自定义模板（可选）。spring-doc.cadn.net.cn
metadataMode：指定在生成摘要时如何处理文档元数据（可选）。spring-doc.cadn.net.cn

行为

这SummaryMetadataEnricher按如下方式处理文档：spring-doc.cadn.net.cn

对于每个输入文档，它使用文档的内容和指定的摘要模板创建一个提示。spring-doc.cadn.net.cn
它将此提示发送到提供的ChatModel以生成摘要。spring-doc.cadn.net.cn
根据指定的summaryTypes，它会向每个文档添加以下元数据：spring-doc.cadn.net.cn
- section_summary：当前文档的摘要。spring-doc.cadn.net.cn
- prev_section_summary：上一个文档的摘要（如果可用且要求）。spring-doc.cadn.net.cn
- next_section_summary：下一份文件的摘要（如果可用且有要求）。spring-doc.cadn.net.cn
将返回扩充的文档。spring-doc.cadn.net.cn

定制

可以通过提供自定义summaryTemplate.默认模板为：spring-doc.cadn.net.cn

"""
Here is the content of the section:
{context_str}

Summarize the key topics and entities of the section.

Summary:
"""

示例

ChatModel chatModel = // initialize your chat model
SummaryMetadataEnricher enricher = new SummaryMetadataEnricher(chatModel,
    List.of(SummaryType.PREVIOUS, SummaryType.CURRENT, SummaryType.NEXT));

Document doc1 = new Document("Content of document 1");
Document doc2 = new Document("Content of document 2");

List<Document> enrichedDocs = enricher.apply(List.of(this.doc1, this.doc2));

// Check the metadata of the enriched documents
for (Document doc : enrichedDocs) {
    System.out.println("Current summary: " + doc.getMetadata().get("section_summary"));
    System.out.println("Previous summary: " + doc.getMetadata().get("prev_section_summary"));
    System.out.println("Next summary: " + doc.getMetadata().get("next_section_summary"));
}

提供的示例演示了预期行为：spring-doc.cadn.net.cn

对于包含两个文档的列表，两个文档都会收到一个section_summary.spring-doc.cadn.net.cn
第一个文档收到一个next_section_summary但没有prev_section_summary.spring-doc.cadn.net.cn
第二个文档收到一个prev_section_summary但没有next_section_summary.spring-doc.cadn.net.cn
这section_summary的第一个文档与prev_section_summary第二份文件。spring-doc.cadn.net.cn
这next_section_summary的第一个文档与section_summary第二份文件。spring-doc.cadn.net.cn

笔记

这SummaryMetadataEnricher需要功能ChatModel生成摘要。spring-doc.cadn.net.cn
扩充器可以处理任何大小的文档列表，正确处理第一个和最后一个文档的边缘情况。spring-doc.cadn.net.cn
此扩充器对于创建上下文感知摘要特别有用，可以更好地理解序列中的文档关系。spring-doc.cadn.net.cn
这MetadataMode参数允许控制如何将现有元数据合并到摘要生成过程中。spring-doc.cadn.net.cn

作家

文件

这FileDocumentWriter是一个DocumentWriter写入列表内容的实现Document对象到文件中。spring-doc.cadn.net.cn

用法

@Component
class MyDocumentWriter {

    public void writeDocuments(List<Document> documents) {
        FileDocumentWriter writer = new FileDocumentWriter("output.txt", true, MetadataMode.ALL, false);
        writer.accept(documents);
    }
}

构造函数

这FileDocumentWriter提供三个构造函数：spring-doc.cadn.net.cn

FileDocumentWriter(String fileName)spring-doc.cadn.net.cn
FileDocumentWriter(String fileName, boolean withDocumentMarkers)spring-doc.cadn.net.cn
FileDocumentWriter(String fileName, boolean withDocumentMarkers, MetadataMode metadataMode, boolean append)spring-doc.cadn.net.cn

参数

fileName：要将文档写入的文件的名称。spring-doc.cadn.net.cn
withDocumentMarkers：是否在输出中包含文档标记（默认值：false）。spring-doc.cadn.net.cn
metadataMode：指定要写入文件的文档内容（默认值：MetadataMode.NONE）。spring-doc.cadn.net.cn
append：如果为 true，则数据将写入文件的末尾而不是开头（默认值：false）。spring-doc.cadn.net.cn

行为

这FileDocumentWriter按如下方式处理文档：spring-doc.cadn.net.cn

它为指定的文件名打开一个 FileWriter。spring-doc.cadn.net.cn
对于输入列表中的每个文档：spring-doc.cadn.net.cn
1. 如果withDocumentMarkers为 true，则它会写入一个文档标记，包括文档索引和页码。spring-doc.cadn.net.cn
2. 它根据指定的metadataMode.spring-doc.cadn.net.cn
写入所有文档后，文件将关闭。spring-doc.cadn.net.cn

文档标记

什么时候withDocumentMarkers设置为 true，则编写器会以以下格式包含每个文档的标记：spring-doc.cadn.net.cn

### Doc: [index], pages:[start_page_number,end_page_number]

元数据处理

编写器使用两个特定的元数据键：spring-doc.cadn.net.cn

page_number：表示文档的起始页码。spring-doc.cadn.net.cn
end_page_number：表示文档的结束页码。spring-doc.cadn.net.cn

这些用于写入文档标记。spring-doc.cadn.net.cn

示例

List<Document> documents = // initialize your documents
FileDocumentWriter writer = new FileDocumentWriter("output.txt", true, MetadataMode.ALL, true);
writer.accept(documents);

这会将所有文档写入“output.txt”，包括文档标记，使用所有可用的元数据，并附加到文件（如果已存在）。spring-doc.cadn.net.cn

笔记

编写器使用FileWriter，因此它使用作系统的默认字符编码写入文本文件。spring-doc.cadn.net.cn
如果在写入过程中发生错误，则RuntimeException以原始异常为原因抛出。spring-doc.cadn.net.cn
这metadataMode参数允许控制如何将现有元数据合并到写入内容中。spring-doc.cadn.net.cn
此编写器对于调试或创建文档集合的人类可读输出特别有用。spring-doc.cadn.net.cn

矢量存储

提供与各种向量存储的集成。有关完整列表，请参阅 Vector DB 文档。spring-doc.cadn.net.cn

ETL 管道

API 概述

ETL 接口

文档阅读器

文档转换器

文档编写器

ETL 类图

文档阅读器

JSON

示例

构造函数选项

参数

行为

使用 JSON 指针

这get(String pointer)方法

参数

返回值

行为

示例

JSON 结构示例

笔记

文本

示例

构造函数选项

参数

配置

行为

笔记

HTML （JSoup）

示例

示例文档：my-page.html

降价

示例

示例文档：code.md

PDF页面

示例

PDF段落

依赖

示例

蒂卡（DOCX、PPTX、HTML......

依赖

示例

变形金刚

文本拆分器

Tokens文本拆分器

用法

构造函数选项

参数

行为

示例

笔记

内容格式转换器

关键字元数据丰富器

用法

构造函数选项

行为

定制

示例

笔记

SummaryMetadataEnricher

用法

构造 函数

参数

行为

定制

示例

笔记

作家

文件

用法

构造 函数

参数

行为

文档标记

元数据处理

示例

笔记

矢量存储

这`get(String pointer)`方法

构造函数

构造函数