AI Service Guide - その他

3. AIサービスリスト (その他)

具体的なAIサービスを、以下の統一されたフォーマットで記録・紹介していきます。

多数のLLMモデルを比較しランク付けするサイト

Artificial Analysis

基本情報

開発元・国: Artificial Analysis, Inc. (運営国、公表なし)

URL: 公式サイトへ

分類

大分類: AIアプリケーション

モデルの専門分野: ベンチマーク, 複数モデル比較

比較分析

知能、スピード、価格、出力速度などの比較

利用情報

登録方法: 不要

主な利用者層: 開発者, 研究者, AIモデルの性能を比較したいユーザー

機能・特徴

公平かつ中立の視点で様々なLLMモデルの性能比較を閲覧できます。

得意なこと: 主要なLLMの性能を速度、品質、価格などのベンチマークで比較し、リーダーボード形式で公開。APIプロバイダーごとの価格比較も提供。

備考

多くのLLMの性能を客観的な指標で比較できる貴重なサイト。モデル選定の際の参考になる。
著名なAI技術者や業界人からの支援・後援を得ている
Nat Friedman（GitHub元CEO／Meta）、Andrew Ng（Google Brain、DeepLearning.ai、Amazon）、Adam D’Angelo（Quora、Poe、OpenAI）、Clem Delangue（Hugging Face）など

LMArena

基本情報

開発元・国: LMSYS Org (アメリカ合衆国)

URL: 公式サイトへ

分類

大分類: AIアプリケーション

モデルの専門分野: ベンチマーク, 複数モデル比較

比較分析

文章、ウェブ解析、画像編集、検索など

利用情報

登録方法: 不要

主な利用者層: 開発者, 研究者, AIモデルの性能を比較したいユーザー

機能・特徴

各モデルを隠した状態で比較し、評価、ランキングするサイト。

得意なこと: 匿名のLLM同士を対戦させ、ユーザー投票によって性能をランク付けする。人間の主観的な好みに基づいた実践的な評価が特徴。

備考

クラウドソーシングによる人間参加型の評価プラットフォーム。Eloレーティングシステムを採用しており、モデルの「賢さ」を客観的な数値で比較できる。

ARC Prize

基本情報

開発元・国: ARC Prize Foundation (非営利団体)

URL: 公式サイトへ

分類

大分類: AIアプリケーション (コンペティション)

モデルの専門分野: ベンチマーク, AGI, 抽象化・推論

比較分析

「人間には簡単だがAIには難しい」ことを意図したベンチマークで公平に評価

評価方式

スコアと実行コスト両面から「効率性」を重視

主な利用者層

AI研究者, 開発者, 機械学習エンジニア

機能・特徴

得意なこと: フランソワ・ショレ氏作成のARCベンチマークを解くAIの性能を競う。未知のタスクを解決する汎用的な問題解決能力を評価する。

備考

Google DeepMindのフランソワ・ショレ氏が主導するAGI（汎用人工知能）開発コンペティション。Kaggle上で開催され、総額110万ドルの賞金が設定されている。

⏱️ LLMタイムライン

説明

主要なLLM（大規模言語モデル）の進化を時系列でまとめた記事です。2017年6月の「Transformar」を起点とした現在までのLLM（大規模言語モデル）の進化を一覧にしました。
モデルの発表日、開発元、特徴などを確認できます。

URL

記事を読む