新しいEmbedding Model が登場!性能や価格面でのアップデート

今日は、Embedding Model(埋め込みモデル)について、Open AI社からアップデートがありましたのでご紹介したいと思います。

 

 

Embedding (埋め込み)とは?

Embedding(埋め込み)とは、文や単語、文字などのテキストデータを高次元空間上における数値ベクトルに変換することです。

この空間上では、意味的に近い単語は互いに近い位置に配置され、遠い単語は遠くに配置されます。

 

Embedding Model(埋め込みモデル)を使って、コンテンツをベクトル化することでコンテンツの関係性を理解しやすくなり、検索の精度が向上します。この技術はChatGPTやAssistants APIなどの知識検索、RAGなどの開発者ツールで活用されています。

 

新しいEmbedding Model(埋め込みモデル)

text-embedding-3-smallとtext-embedding-3-largeという2つのモデルに注目します。これらのモデルは、text-embedding-ada-002という前世代のモデルと比べて、以下のような特徴があります。

 

text-embedding-3-small

text-embedding-ada-002よりも性能が向上し、価格が安くなりました。

性能面では、多言語検索のベンチマーク(MIRACL)では、平均スコアが31.4%から44.0%に、英語タスクのベンチマーク(MTEB)では、平均スコアが61.0%から62.3%に上がっています。

価格面では、text-embedding-ada-002と比べて5倍安くなっています。

 

text-embedding-3-large

最大3072次元の埋め込みを作成できる最高性能のモデルです。

新しい大型の埋め込みモデルで、最大3072次元の埋め込みを作成できます。
text-embedding-3-largeは、text-embedding-ada-002よりも性能が大幅に向上しており、MIRACLでは、平均スコアが31.4%から54.9%に、MTEBでは、平均スコアが61.0%から64.6%に上がっています。

 

その他アップデート

GPT-3.5 Turbo

投入価格は50%、出力価格は25%の値下げが発表されました。

GPT-4 Turbo

コード生成などのタスクを徹底的に完了し、モデルがタスクを完了しない “怠惰” のケースを減らすアップデートが施されました。新しいモデルには、英語以外の UTF-8 世代に影響を与えるバグの修正も含まれています。

 

 

 

 

この記事を書いた人

髙橋 和輝
髙橋 和輝
テクニカルマーケターとして、新技術の検証、ブログ執筆、セミナー講師を行っております!
学生時代はアプリ開発に興味がありましたが、インフラ、セキュリティ事業を経て、現在はクラウド屋さんになっております。
コロナ禍前は、月1で海外旅行にいくなどアクティブに活動していましたが、最近は家に引きこもってゲームが趣味になっています。

宜しくお願い致します!