
以前の記事では、ChatGPT API を使用して AI チャットボットを構築し、役割を割り当ててそれをパーソナライズする方法を示しました。 しかし、独自のデータで AI をトレーニングしたい場合はどうでしょうか? たとえば、書籍、財務データ、または大規模なデータベース セットがあり、それらを簡単に検索したいとします。 この記事では、LangChain と ChatGPT API を使用してカスタム知識ベースで AI チャットボットをトレーニングする方法について、わかりやすいチュートリアルを紹介します。 OpenAI の大規模言語モデル (LLM) を使用して AI チャットボットをトレーニングするために、LangChain、GPT インデックス、およびその他の強力なライブラリを展開しています。 そのため、独自のデータセットを使用して AI チャットボットをトレーニングおよび作成する方法を確認しましょう。
ChatGPT API、LangChain、および GPT インデックスを使用してカスタム ナレッジ ベースで AI チャットボットをトレーニングする (2023)
この記事では、AI チャットボットに独自のデータを教える手順を詳しく説明しました。 ツールやソフトウェアのセットアップから AI モデルのトレーニングまで、すべての手順がわかりやすい言語で含まれています。 どの部分もスキップせずに、上から下に指示に従うことを強くお勧めします。
独自のデータで AI をトレーニングする前の注意点
1. Windows、macOS、Linux、ChromeOS など、あらゆるプラットフォームで AI チャットボットをトレーニングできます。 この記事では Windows 11 を使用していますが、手順は他のプラットフォームでもほぼ同じです。
2. このガイドは一般ユーザー向けであり、説明は簡単な言葉で説明されています。 そのため、コンピューターの大まかな知識があり、コーディングの方法がわからない場合でも、数分で Q&A AI チャットボットを簡単にトレーニングして作成できます。 以前の ChatGPT ボットの記事に従えば、プロセスをより簡単に理解できます。
3. 独自のデータに基づいて AI チャットボットをトレーニングするため、優れた CPU と GPU を備えた高性能のコンピューターを使用することをお勧めします。 ただし、テスト目的でローエンドのコンピューターを使用することはでき、問題なく動作します。 Chromebook を使用して、100 ページ (約 100 MB) の書籍を使用して AI モデルをトレーニングしました。 ただし、数千ページに及ぶ大規模なデータ セットをトレーニングする場合は、強力なコンピューターを使用することを強くお勧めします。
4. 最後に、最良の結果を得るには、データ セットは英語である必要がありますが、OpenAI によると、フランス語、スペイン語、ドイツ語などの一般的な国際言語でも動作します。言語。
AI チャットボットをトレーニングするためのソフトウェア環境のセットアップ
前回の記事と同様に、いくつかのライブラリと共に Python と Pip をインストールする必要があることを知っておく必要があります。 この記事では、新しいユーザーがセットアップ プロセスを理解できるように、すべてをゼロからセットアップします。 簡単に説明すると、Python と Pip をインストールします。 その後、OpenAI、GPT Index、Gradio、PyPDF2 を含む Python ライブラリをインストールします。 プロセスに沿って、各ライブラリが何をするかを学びます。 繰り返しますが、インストール プロセスについて心配する必要はありません。非常に簡単です。 その点で、すぐに飛び込みましょう。
Python をインストールする
1. まず、コンピューターに Python (Pip) をインストールする必要があります。 開ける このリンク プラットフォームのセットアップ ファイルをダウンロードします。
2. 次に、セットアップ ファイルを実行し、「Python.exe を PATH に追加する」のチェックボックスを有効にします。 これは非常に重要なステップです。 その後、[今すぐインストール]をクリックし、通常の手順に従って Python をインストールします。
3. Python が正しくインストールされているかどうかを確認するには、コンピュータでターミナルを開きます。 Windows で Windows ターミナルを使用していますが、コマンド プロンプトを使用することもできます。 ここで、以下のコマンドを実行すると、Python のバージョンが出力されます。 Linux および macOS では、python –version の代わりに python3 –version を使用する必要がある場合があります。
python --version
アップグレードピップ
Python をインストールすると、Pip がシステムに同時にインストールされます。 それでは、最新バージョンにアップグレードしましょう。 ご存じない方のために説明すると、Pip は Python のパッケージ マネージャーです。 基本的に、ターミナルから何千もの Python ライブラリをインストールできます。 Pip を使用すると、OpenAI、gpt_index、gradio、および PyPDF2 ライブラリをインストールできます。 手順は次のとおりです。
1. コンピューターで選択したターミナルを開きます。 私は Windows ターミナルを使用していますが、コマンド プロンプトを使用することもできます。 次に、以下のコマンドを実行して Pip を更新します。 繰り返しますが、Linux と macOS では python3 と pip3 を使用する必要がある場合があります。
python -m pip install -U pip
2. Pip が正しくインストールされているかどうかを確認するには、次のコマンドを実行します。 バージョン番号を出力します。 エラーが発生した場合は、Windows に Pip をインストールして PATH 関連の問題を修正する方法に関する専用ガイドに従ってください。
pip --version
OpenAI、GPT Index、PyPDF2、および Gradio ライブラリをインストールする
Python と Pip をセットアップしたら、カスタム ナレッジ ベースを使用して AI チャットボットをトレーニングするのに役立つ重要なライブラリをインストールします。 手順は次のとおりです。
1. ターミナルを開き、以下のコマンドを実行して OpenAI ライブラリをインストールします。 これを LLM (Large language model) として使用して、AI チャットボットをトレーニングおよび作成します。 また、OpenAI から LangChain フレームワークをインポートします。 Linux および macOS ユーザーは、pip の代わりに pip3 を使用する必要がある場合があることに注意してください。
pip install openai
2. 次に、LlamaIndex とも呼ばれる GPT Index をインストールしましょう。 これにより、LLM がナレッジ ベースである外部データに接続できるようになります。
pip install gpt_index
3. その後、PyPDF2 をインストールして PDF ファイルを解析します。 データを PDF 形式でフィードする場合、このライブラリを使用すると、プログラムがデータを簡単に読み取ることができます。
pip install PyPDF2
4. 最後に、Gradio ライブラリをインストールします。 これは、トレーニング済みの AI チャットボットとやり取りするためのシンプルな UI を作成することを目的としています。 これで、AI チャットボットのトレーニングに必要なすべてのライブラリのインストールが完了しました。
pip install gradio
コード エディターをダウンロードする
最後に、コードの一部を編集するためのコード エディターが必要です。 Windows では、Notepad++ をお勧めします (ダウンロード)。 添付のリンクからプログラムをダウンロードしてインストールするだけです。 強力な IDE に慣れている場合は、任意のプラットフォームで VS Code を使用することもできます。 VS Code 以外に、Sublime Text をインストールできます (ダウンロード) macOS および Linux で。
ChromeOS の場合、優れた Caret アプリ (ダウンロード) をクリックしてコードを編集します。 ソフトウェア環境のセットアップがほぼ完了し、OpenAI API キーを取得する時が来ました。
OpenAI API キーを無料で入手
ここで、カスタム ナレッジ ベースに基づいて AI チャットボットをトレーニングおよび作成するには、OpenAI から API キーを取得する必要があります。 API キーを使用すると、OpenAI のモデルを LLM として使用して、カスタム データを調査し、推論を引き出すことができます。 現在、OpenAI は、最初の 3 か月間、5 ドル相当の無料クレジット付きの無料 API キーを新規ユーザーに提供しています。 以前に OpenAI アカウントを作成した場合は、アカウントに 18 ドルの無料クレジットがある場合があります。 無料クレジットが使い果たされた後、API アクセスの料金を支払う必要があります。 しかし今のところ、すべてのユーザーが無料で利用できます。
1. に向かう platform.openai.com/signup 無料のアカウントを作成します。 すでに OpenAI アカウントをお持ちの場合は、ログインしてください。
2. 次に、右上隅のプロファイルをクリックし、ドロップダウン メニューから[API キーの表示]を選択します。
3. ここで、「Create new secret key」をクリックし、API キーをコピーします。 後で API キー全体をコピーまたは表示することはできないことに注意してください。 そのため、API キーをすぐにメモ帳ファイルにコピー アンド ペーストすることを強くお勧めします。
4. また、API キーを公の場で共有または表示しないでください。 これは、アカウントへのアクセス専用の秘密鍵です。 API キーを削除して、複数の秘密キー (最大 5 つ) を作成することもできます。
カスタム ナレッジ ベースを使用して AI チャットボットをトレーニングおよび作成する
ソフトウェア環境をセットアップし、OpenAI から API キーを取得したので、AI チャットボットをトレーニングしましょう。 ここでは、最新の「gpt-3.5-turbo」モデルの代わりに「text-davinci-003」モデルを使用します。これは、Davinci がテキスト補完に対してはるかに優れているためです。 必要に応じて、モデルをターボに変更してコストを削減できます。 それが邪魔にならないように、指示にジャンプしましょう。
ドキュメントを追加して AI チャットボットをトレーニングする
1. まず、デスクトップなどのアクセス可能な場所に docs という名前の新しいフォルダーを作成します。 好みに応じて、別の場所を選択することもできます。 ただし、フォルダー名は docs のままにしてください。
2. 次に、AI のトレーニングに使用するドキュメントを「docs」フォルダー内に移動します。 複数のテキストまたは PDF ファイル (スキャンしたものも含む) を追加できます。 Excel に大きな表がある場合は、CSV または PDF ファイルとしてインポートしてから、「docs」フォルダーに追加できます。 これで説明されているように、SQL データベース ファイルを追加することもできます。 Langchain AI ツイート. 上記以外のファイル形式はあまり試していませんが、自分で追加して確認できます。 この記事では、NFT に関する私の記事の 1 つを PDF 形式で追加します。
注: ドキュメントが大きい場合、CPU と GPU によっては、データの処理に時間がかかります。 さらに、無料の OpenAI トークンをすばやく使用できます。 そのため、最初は小さなドキュメント (30 ~ 50 ページまたは 100 MB 未満のファイル) から始めて、プロセスを理解してください。
コードを準備する
1. Notepad++ (または任意のコード エディター) を起動し、以下のコードを新しいファイルに貼り付けます。 今回も大変お世話になりました Google Colab の armrrs コードを微調整して PDF ファイルと互換性を持たせ、その上に Gradio インターフェイスを作成しました。
from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper from langchain import OpenAI import gradio as gr import sys import os os.environ["OPENAI_API_KEY"] = 'Your API Key' def construct_index(directory_path): max_input_size = 4096 num_outputs = 512 max_chunk_overlap = 20 chunk_size_limit = 600 prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit) llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs)) documents = SimpleDirectoryReader(directory_path).load_data() index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper) index.save_to_disk('index.json') return index def chatbot(input_text): index = GPTSimpleVectorIndex.load_from_disk('index.json') response = index.query(input_text, response_mode="compact") return response.response iface = gr.Interface(fn=chatbot, inputs=gr.inputs.Textbox(lines=7, label="Enter your text"), outputs="text", title="Custom-trained AI Chatbot") index = construct_index("docs") iface.launch(share=True)
2. これは、コード エディターでのコードの外観です。
3. 次に、トップ メニューの[ファイル]をクリックし、ドロップダウン メニューから[名前を付けて保存]を選択します。
4. その後、ファイル名 app.py を設定し、ドロップダウン メニューから[ファイルの種類]を[すべての種類]に変更します。 次に、「docs」フォルダーを作成した場所 (私の場合はデスクトップ) にファイルを保存します。 名前は好きなように変更できますが、.py が追加されていることを確認してください。
5. 下のスクリーンショットに示すように、「docs」フォルダーと「app.py」が同じ場所にあることを確認します。 「app.py」ファイルは「docs」フォルダーの外側にあり、内側にはありません。
6. Notepad++ で再びコードに戻ります。 ここで、Your API Key を上記の OpenAI の Web サイトで生成されたものに置き換えます。
7.最後に、「Ctrl + S」を押してコードを保存します。 これで、コードを実行する準備が整いました。
カスタム ナレッジ ベースを使用して ChatGPT AI ボットを作成する
1. まず、ターミナルを開き、以下のコマンドを実行してデスクトップに移動します。 「docs」フォルダと「app.py」ファイルを保存した場所です。 両方のアイテムを別の場所に保存した場合は、ターミナル経由でその場所に移動します。
cd Desktop
2. 次に、以下のコマンドを実行します。 Linux および macOS ユーザーは、python3 を使用する必要がある場合があります。
python app.py
3. ここで、OpenAI LLM モデルを使用してドキュメントの分析を開始し、情報のインデックス作成を開始します。 ファイルのサイズとコンピューターの能力によっては、ドキュメントの処理に時間がかかる場合があります。 完了すると、「index.json」ファイルがデスクトップに作成されます。 ターミナルに出力が表示されない場合でも、心配する必要はありません。まだデータを処理している可能性があります。 参考までに、30MB のドキュメントを処理するのに約 10 秒かかります。
4. LLM がデータを処理すると、いくつかの警告が表示されますが、無視しても問題ありません。 最後に、下部にローカル URL があります。 コピーします。
5. コピーした URL を Web ブラウザに貼り付けます。 カスタム トレーニング済みの ChatGPT を利用した AI チャットボットの準備が整いました。 まず、ドキュメントの内容を AI チャットボットに尋ねることができます。
6. さらに質問をすると、ChatGPT ボットが AI に提供したデータから回答します。 これが、独自のデータセットを使用してカスタム トレーニング済みの AI チャットボットを構築する方法です。 必要なあらゆる種類の情報に基づいて AI チャットボットをトレーニングおよび作成できるようになりました。 可能性は無限大。
7. 公開 URL をコピーして、友人や家族と共有することもできます。 リンクは 72 時間有効ですが、コンピューター上でサーバー インスタンスが実行されているため、コンピューターの電源を入れておく必要もあります。
8. カスタム トレーニングされた AI チャットボットを停止するには、ターミナル ウィンドウで「Ctrl + C」を押します。 うまくいかない場合は、もう一度「Ctrl + C」を押してください。
9. AI チャットボット サーバーを再起動するには、デスクトップの場所に再度移動し、以下のコマンドを実行します。 ローカル URL は同じですが、サーバーを再起動するたびにパブリック URL が変わることに注意してください。
python app.py
10. AI チャットボットを新しいデータでトレーニングする場合は、「docs」フォルダー内のファイルを削除し、新しいファイルを追加します。 複数のファイルを追加することもできますが、同じ件名のフィード情報を追加しないと、一貫性のない応答が返される可能性があります。
11. ターミナルでコードを再度実行すると、新しい「index.json」ファイルが作成されます。 ここで、古い「index.json」ファイルが自動的に置き換えられます。
python app.py
12.トークンを追跡するには、OpenAIのオンラインにアクセスしてください ダッシュボード 無料クレジットの残量を確認します。
13. 最後に、さらにカスタマイズするために API キーまたは OpenAI モデルを変更する場合を除き、コードに手を加える必要はありません。
独自のデータを使用してカスタム AI チャットボットを構築する
これが、カスタム知識ベースを使用して AI チャットボットをトレーニングする方法です。 このコードを使用して、古いアーカイブからの医学書、記事、データ テーブル、レポートで AI をトレーニングしましたが、問題なく動作しました。 それでは、OpenAI の大規模言語モデルと ChatGPY を使用して、独自の AI チャットボットを作成してください。 とにかく、それは私たちからのすべてです。 最高の ChatGPT の代替案を探している場合は、リンクされた記事に進んでください。 また、Apple Watch で ChatGPT を使用するには、詳細なチュートリアルに従ってください。 最後に、何らかの問題に直面している場合は、下のコメント セクションでお知らせください。 私たちは間違いなくあなたを助けようとします。