top of page
植物と本
  • 執筆者の写真Shumpei Miyawaki

GPT Index #01

更新日:2023年2月1日


1. GPT Index は何をするか?

  • タスクに必要な外部知識を動的に組み込み大規模言語モデルが推論を行う 二段階のデータ構造ツールキットを提供する

    • 質問応答や要約タスクに利用可能

    • Google Docs, Slack, Notion, Discord などの外部システムと連携

    • 文書画像読解(Donut)や 音声認識(Whisper)、HTML/PPTX/Twitter リーダーによる入力機能と連携

    • ユースケースについては GPT Index Use Cases を参照されたい


  • Node: Document におけるテキストのチャンク GPT インデックスは Document オブジェクトを取り込み、内部で Node オブジェクトにパース/チャンクする

  • Response Synthesis: 取得した Node に基づいて応答を生成するモジュール 複数の response_mode が設定可能 デフォルトでは Node 毎に言語モデルを呼び出すことで解答を作成・改良する


1.1. 外部知識の組み込み方法

  • List Index / Vector Store Index: 全ての Node を Response Synthesis に入力する キーワードフィルタやベクトル検索などで質問に関連する検索対象を絞り込むことが可能

  • Tree Index: Node 集合から階層的なツリー構造を構築する 親 Node から子 Node の k 階層までを走査し Response Synthesis に入力する

  • Keyword Table Index: 各 Node から転置インデックスのようにマッピングを作成する 推論時はクエリ中のキーワードを含む Node を Response Synthesis に入力する


1.2. 言語モデルによる解答方法

  • Create and Refine: (1) 質問と Node から解答を生成 (2) 生成した解答を加え (1) を反復的に行う

  • Tree Summarize: 質問から候補 Node を抽出してボトムアップ的にツリーを構築し、 最終的にルートとなった単語列を解答として出力する


2. クイックスタート

閲覧数:10回0件のコメント

最新記事

すべて表示

GPT Index #02

Github Document GPT Index #01 2. Document GPT Index では Document [doc] と呼ばれるデータクラスを扱う BaseDocument [code] という基底クラスを継承している 属性値取得のメソッドに加え、Langchain と連携するためのデータ変換メソッドも定義されている from dataclasses import datac

bottom of page