Gemini

出典: 謎の百科事典もどき『エンペディア(Enpedia)』
ナビゲーションに移動 検索に移動

Gemini'(ジェミニ)は、Googleが開発した、マルチモーダル生成AI(大規模言語モデル、LLM)の総称、およびそれを用いたチャットサービスの名称である。

従来のテキスト特化型モデルとは異なり、テキスト、画像、音声、動画、プログラミングコードなど、異なる種類の情報を同時に処理・理解できることが最大の特徴とされる。

概要[編集]

2023年12月に、Googleの当時の最新モデルであった「PaLM 2」の後継として発表された。名称の「Gemini」は、Google内の2つのAI研究部門(Google BrainとDeepMind)が統合されて誕生したことに由来し、ふたご座を意味している。

それまでGoogleが提供していたチャットAI「Bard」も、2024年2月をもって「Gemini」へと名称が統合され、現在はGoogleのAIブランドの主軸となっている。

特徴[編集]

  • マルチモーダル性:設計段階からテキスト以外のデータ(画像・音声等)を学習に組み込んでおり、ネイティブなマルチモーダル処理が可能となっている。
  • 広大なコンテキストウィンドウ:特に「Gemini 1.5 Pro」などのモデルでは、100万トークンを超える膨大な情報を一度に読み取ることが可能であり、長編小説や数時間の動画内容を一度に解析できる。
  • Googleエコシステムとの連携Google 検索Google ドキュメントGmailなどの各種サービスと連携し、情報を抽出・整理する機能を有する。

モデルのバリエーション[編集]

利用シーンや計算リソースに応じて、複数のサイズが展開されている。

  • Ultra:非常に複雑なタスク向けの高機能モデル。
  • Pro:幅広いタスクに対応する汎用性の高いモデル。
  • Flash:レスポンス速度とコスト効率を重視した軽量・高速モデル。
  • Nano:デバイス上(スマートフォン等)での実行に最適化されたモデル。

歴史[編集]

  • 2023年12月6日:Gemini 1.0を発表。
  • 2024年2月8日:対話型AI「Bard」を「Gemini」に改称。有料版「Gemini Advanced」の提供を開始。
  • 2024年5月:Google I/Oにて、1.5 Proおよび1.5 Flashを発表。コンテキストウィンドウの劇的な拡大が話題となる。

評価[編集]

検索エンジン最大手のGoogleが提供するAIとして、情報の新鮮さやGoogleマップ等との連携機能が高い評価を受けている。一方で、AI全般に共通する課題であるハルシネーション(事実誤認)のリスクについても、継続的な改善が行われている。

関連項目[編集]