Chunkingとは? Chunking(チャンキング)とは、LLM(Large Language Models、大規模言語モデル)の文脈ウィンドウに従うために、テキストをより小さく分割するプロセスのことを言います。テキスト全体を一度に処理することができない場合、特にLLMが一度に扱えるテキストの量(コンテキストウィンドウ)に限りがある場合に、テキストを小さなセグメントに「chunking(チャン […]
AskDonaのデモサイト RAGの回答の質は資料を実際に読み込ませて回答を生成させることで評価できます。総務省が公表している令和6年版情報通信白書をAskDonaのRAGフレームワークに読み込んでいます。 デモサイトはこちら ご利用開始前に必ず一読お願いいたします。 AskDonaには『生成AIチャット』と『高度検索』があります。
「理化学研究所がGFLOPSの生成AIアシスタント「AskDona」の利用を開始」 理化学研究所(理研)は当社の生成AIアシスタント「AskDona(アスクドナ)」を富岳サポートサイトに導入されています。AskDona(アスクドナ)は、スーパーコンピューター「富岳」の利用者からの質問に対して迅速かつ正確な回答をリアルタイムにチャット形式で提供しています。導入の背景には、利用者が膨大な技術情報から必 […]
データを分割するチャンク化とは? チャンク化(Chunking)とは、ドキュメントから抽出したテキスト等のデータを小さな「チャンク(Chunk)」に分割するプロセスです。チャンク化は検索拡張生成(RAG)を適用するときに必要となる処理ですが、そもそもチャンク化が必要な理由は、大規模言語モデル(LLM)のコンテキストウィンドウに制限があるからです。 外部情報としてドキュメント情報をLLMに送信する際 […]
PDFからテキストを抽出することが難しい理由とは? PDFは、さまざまなデバイスやプラットフォームでコンテンツの正確なレイアウトを維持するように設計されています。また、ドキュメントがどこで表示または印刷されても同じように見える状態で保存されています。PDFは統一されたコンテンツをドキュメント化して共有する手段としては最も適しています。 しかし、PDFが持つこの形式がRAGのテキスト抽出をする際に障 […]
RAG(Retrieval-Augmented Generation:検索拡張生成)とは? RAG(Retrieval-Augmented Generation:検索拡張生成)は、大規模言語モデル(LLM)によるテキスト生成に、外部情報の検索を組み合わせる技術です。この技術は、生成内容の正確さを向上させるために使用されます。具体的には、言語モデルがテキストを生成する際に、特定の知識や情報源(ナレッ […]
トークンリミット(Token Limit)とは? トークンリミットとは、LLMが一度に処理できるトークンの数に対する制限のことです。トークンは、単語やフレーズ、その他のテキストの一部を表す単位です。例えば、「I love you.」というフレーズは、「I」、「love」、「you」、「.」、「 」の5つのトークンで構成されます。 トークンリミットの重要性 トークンリミットは、LLMの性能に影響を与 […]
近年、生成AIの技術革新が進み、大規模言語モデル(LLM)がさまざまな分野で活用されています。しかし、LLMにはいくつかの課題があり、その解決策として注目されているのがRAG(検索拡張生成)です。本記事では、RAGがなぜ必要なのか、その理由とメリットについて解説します。 RAGとは? RAG(Retrieval-Augmented Generation)とは、大規模言語モデル(LLM)に外部情報を […]
大規模言語モデルのFunction Callingとは? 大規模言語モデル(LLM)のハルシネーションを抑えるための技術の一つとして、Retrieval-Augmented Generation(RAG)があります。RAGは、プロンプトに文脈を追加するために外部データを検索するリトリーバーを使用し、その後ジェネレーター(LLM)に送ります。 RAGは静的なデータに対して有効である一方、リアルタイム […]
Embedding(エンべディング)とは? Embedding(エンべディング)とは、いわばデータの「翻訳」プロセスのようなものです。たとえば、私たちが日常で使う言葉や文章といった複雑な情報を、コンピュータが理解しやすいシンプルな数値の形に変換するプロセスのことです。具体的には、分類されたデータ、複雑なデータ、または多くの情報を含む大次元のデータ(large-dimensional data)を、 […]