ChatRTX (旧:Chat With RTX)でローカルLLM(大規模言語モデル)Nvidia製GPU:RTX4060Ti(16GB)で実行する
Chat RTX(旧:Chat With RTX)でローカルLLM(大規模言語モデル)を実行する
-
CPU:i9-13900K(渦中の奴)
-
メモリ(RAM):64GB
-
GPU:RTX4060Ti(16GB)&RTX A2000(6GB)
-
HDD/SSD:SynologyからiSCSI OS Boot (ロールバックを簡単に行うため) Chat RTXの保存/実行はNvme(Adata Falcon 512GB)
今回のChat RTXの実行環境は以下の通りです。
1.ChatRTXの取得先について
ChatRTXの取得については2024年5月10日現在、Nvidiaの公式ページでは、 旧Chat With RTXのページしか用意されておらず、英語版のページからファイルを取得する必要があります。
ダウンロードファイルについても、 Ver0.3よりインストール後に使いたいモデルをダウンロードする方法になり、 Ver0.2(旧:Chat With RTX)より13GB近くの初期ダウンロードファイルが少なくなっています。
また、英語版のChat RTXのページ下部にある Chat for DevelopersのGit Hubへのリンクに関してですが、 こちらのリンク上のGit Hub上にあるTRT-LLMは v0.5およびv0.7.1と古い情報となっています。 Chat RTXで実行されるTRT-LLM(TensorRT-LLM for Windows)はVer0.9となり、 自分でモデルを追加したい等でなければ、あまり参考にならないかと思います。
下記の画像中心部分あたりで、config.jsonのロード後にTensorRT-LLMがVer0.9.0で実行されているのがわかります。
後日追記します。