BAOBAB

LLM学習データ作成から評価まで一貫対応

特定のタスクや用途に特化した大規模言語モデル(LLM)の構築に対し、高品質なチューニングデータセットを迅速提供。仕様作成から伴走します。

LLM開発の頼れるパートナー

  • 10年以上の実績

    10年以上のテキストデータセット構築ノウハウにより、 タスクに特化したチームを編成し効率的なオペレーションを実現します。 個別の要望に対して適切かつ高品質なデータセットを迅速に提供できます。

  • 仕様策定から伴走

    質の高いデータの構築に欠かせない丁寧な要件設計。モデルの目的に沿った学習データの仕様策定に伴走し、助言・サポートを致します。

  • エシカルAI

    作業にあたるパートナー(Baopart)の倫理規程・賃金規程を定め、データ作成者の適切な労働環境及び人権遵守に努めたエシカルデータを作成。公平で健全なAIエコシステムの構築に貢献します。

バオバブのLLMサービス

ファインチューニング用データセット構築

  • 特定のタスクや用途に特化した大規模言語モデル(LLM)の構築に、ファインチューニングはかかせません。バオバブは、ファインチューニングをするモデルの目的や用途をクライアントに丁寧にヒアリングをした上で、一貫性や正確性に長けた高品質なファインチューニング用のデータセットを作成します。

検索強化型生成(RAG)用データセット構築

  • LLMでRAG(Retrieval-augumented Generation)を利用するには、RAGを実施させるためのプロンプトの設計に加え、LLMをRAGのためにチューニングする高品質なデータセットが必要です。典型的には、このデータセットには次の情報が含まれます。

    • ・ユーザの質問文
    • ・知識源からユーザの質問に合致する情報を抽出するクエリ
    • ・知識源から抽出された情報
    • ・言語モデルの回答文
    • バオバブが持つ10年以上のテキストデータセット構築ノウハウにより、クライアントの個別要望に対して適切かつ高品質なデータセットを迅速に提供します。また、契約により非公開データに対するRAGデータセットの構築にも対応。お客様自身でモデルをチューニングしたり、運用中のモデルやプロンプトを評価するためのデータセットを構築、提供します。

RLHF(Reinforcement Learning from Human Feedback)

  • RLHFのプロセスには、人の手によって作られる大量の質問データ、質問と回答のデータセットが必要です。また、チューニング済みモデルから抽出した回答の順位づけにも人による作業が発生します。バオバブでは、クライアントの目指すモデルに適したQAデータセットを作成し、サンプリングした結果の順位付けを承ります。

Baobab Generative AI評価サービス(人手評価サービス)

  • LLM等の出力に対しBaobabの評価者による人手評価を提供します。先入観や観察者バイアスなどの問題を回避することができ、客観性が担保された信頼される生成AIの実現に寄与します。

バオバブのLLMサービス 実績

  • インターネットサービス業

    指示 / 応答文アノテーション

    課題
    日本語と日本人の感性を理解するLLMの構築を目指していたクライアントは、スピード感のある学習データ作成を求めていた。
    提供サービス
    専門家による丁寧なヒアリングとコンサルティングを経て、クライアントのビジネス目的に沿った学習データ作成戦略を提案。12営業日で39万字の指示応答文を提供した。作業時には疑問点をクライアントと質問シートでやり取りし、理解に齟齬がないように努めた。
    成果
    クライアントは迅速な対応と高品質なデータに満足し、モデルの学習にも良い結果が得られたと話し、今後のデータの追加や強化学習段階におけるデータ構築でもバオバブへの依頼を前向きに検討している。
  • グローバルメーカー

    評価用データセットの作成

    課題
    メーカーの技術者向けマニュアルQ&Aに特化したLLM対話モデル構築の為、人手で作成される大量の学習・評価用データを必要としていた。
    提供サービス
    クライアントへのヒアリングを元に、データに求められる特定技術に関する専門知識を有するアドバイザーを筆頭にしたチームを組成し、専門用語の正誤も含めてチェックできる体制を整えた。また、作業前の段階からクライアントとのコミュニケーションを工夫し情報の理解を深めたたことで納品物の質を高めた。
    成果
    専門知識を有するメンバーが実際の作業に参加したこと、及びデータの根拠を明確にしたことによる非常に質の高いデータセットに満足した。

納品までの流れ

バオバブとデータセット作成依頼主(クライアント)間で直接契約する場合

①案件概要のヒアリング

ご依頼内容をヒアリングし、案件受託可否を検討させていただきます。

②NDA締結

当社とクライアント間でNDAを締結します。

③データセット仕様策定

当社とクライアントでデータセットの仕様を策定します。

④情報提供

データセット構築に必要な知識源をクライアントからご提供いただきます。

⑤データ作成

当社アノテータへのタスクの周知および教育、データセット作成をします。

⑥納品

完成データセットの検品および納品をします。