RAG│GFLOPSHUB

RAGのChunkingとは？データを分割する適当なChunkingの種類や方法

2024.10.02
RAG

Chunkingとは？ Chunking（チャンキング）とは、LLM（Large Language Models、大規模言語モデル）の文脈ウィンドウに従うために、テキストをより小さく分割するプロセスのことを言います。テキスト全体を一度に処理することができない場合、特にLLMが一度に扱えるテキストの量（コンテキストウィンドウ）に限りがある場合に、テキストを小さなセグメントに「chunking（チャン […]

AskDonaのデモサイトー令和6年版情報通信白書（PDF版）をAskDonaのRAGフレームワークで読み込ませた生成AIチャットと高度検索とは？

2024.08.26
AskDona RAG

AskDonaのデモサイト RAGの回答の質は資料を実際に読み込ませて回答を生成させることで評価できます。総務省が公表している令和6年版情報通信白書をAskDonaのRAGフレームワークに読み込んでいます。デモサイトはこちらご利用開始前に必ず一読お願いいたします。 AskDonaには『生成AIチャット』と『高度検索』があります。

理研の富岳サポートサイトが利用しているRAGとは？GFLOPS×理研 – AskDona

2024.08.23
RAG

「理化学研究所がGFLOPSの生成AIアシスタント「AskDona」の利用を開始」理化学研究所（理研）は当社の生成AIアシスタント「AskDona（アスクドナ）」を富岳サポートサイトに導入されています。AskDona（アスクドナ）は、スーパーコンピューター「富岳」の利用者からの質問に対して迅速かつ正確な回答をリアルタイムにチャット形式で提供しています。導入の背景には、利用者が膨大な技術情報から必 […]

RAGのChunkingとは？（続）LLMのコンテキストウィンドウの制限を理解してチャンク化を検討する

2024.08.23
RAG

データを分割するチャンク化とは？チャンク化（Chunking）とは、ドキュメントから抽出したテキスト等のデータを小さな「チャンク（Chunk）」に分割するプロセスです。チャンク化は検索拡張生成（RAG）を適用するときに必要となる処理ですが、そもそもチャンク化が必要な理由は、大規模言語モデル（LLM）のコンテキストウィンドウに制限があるからです。外部情報としてドキュメント情報をLLMに送信する際 […]

PDFのテキスト抽出が難関である理由、RAGを構築するにあたって直面するハードルとは？

2024.08.09
RAG

PDFからテキストを抽出することが難しい理由とは？ PDFは、さまざまなデバイスやプラットフォームでコンテンツの正確なレイアウトを維持するように設計されています。また、ドキュメントがどこで表示または印刷されても同じように見える状態で保存されています。PDFは統一されたコンテンツをドキュメント化して共有する手段としては最も適しています。しかし、PDFが持つこの形式がRAGのテキスト抽出をする際に障 […]

RAGとは？仕組みと導入メリット、導入時の事前知識や注意点をわかりやすく解説

2024.07.15
RAG

RAG（Retrieval-Augmented Generation：検索拡張生成）とは？ RAG（Retrieval-Augmented Generation：検索拡張生成）は、大規模言語モデル（LLM）によるテキスト生成に、外部情報の検索を組み合わせる技術です。この技術は、生成内容の正確さを向上させるために使用されます。具体的には、言語モデルがテキストを生成する際に、特定の知識や情報源（ナレッ […]

大規模言語モデルのトークンリミットとは？

2024.06.24
RAG Token

トークンリミット（Token Limit）とは？トークンリミットとは、LLMが一度に処理できるトークンの数に対する制限のことです。トークンは、単語やフレーズ、その他のテキストの一部を表す単位です。例えば、「I love you.」というフレーズは、「I」、「love」、「you」、「.」、「」の5つのトークンで構成されます。トークンリミットの重要性トークンリミットは、LLMの性能に影響を与 […]

RAGとは？LLMの回答の質を大幅に向上させるRAGの基本的なフローについて理解する

2024.06.22
RAG

近年、生成AIの技術革新が進み、大規模言語モデル（LLM）がさまざまな分野で活用されています。しかし、LLMにはいくつかの課題があり、その解決策として注目されているのがRAG（検索拡張生成）です。本記事では、RAGがなぜ必要なのか、その理由とメリットについて解説します。 RAGとは？ RAG（Retrieval-Augmented Generation）とは、大規模言語モデル（LLM）に外部情報を […]

大規模言語モデルのFunction Callingとは？

2024.06.21
Function Calling RAG

大規模言語モデルのFunction Callingとは？大規模言語モデル（LLM）のハルシネーションを抑えるための技術の一つとして、Retrieval-Augmented Generation（RAG）があります。RAGは、プロンプトに文脈を追加するために外部データを検索するリトリーバーを使用し、その後ジェネレーター（LLM）に送ります。 RAGは静的なデータに対して有効である一方、リアルタイム […]

RAGにも使うエンべディング（Embedding）とは？なぜエンべディングが必要なのか解説

2024.05.28
RAG

Embedding（エンべディング）とは？ Embedding（エンべディング）とは、いわばデータの「翻訳」プロセスのようなものです。たとえば、私たちが日常で使う言葉や文章といった複雑な情報を、コンピュータが理解しやすいシンプルな数値の形に変換するプロセスのことです。具体的には、分類されたデータ、複雑なデータ、または多くの情報を含む大次元のデータ（large-dimensional data）を、 […]

GFLOPS 生成AI Hub

GFLOPS

生成AIアシスタント