BAOBAB

サービス

バオバブは「クラウドソーシング」の会社ではありません。
世界最高品質の成果物をスピーディに提供することができるのは、能動的に質を追求し続けるパートナーたちあってこそのもの。
私たちはプロジェクトにあたる「パートナー(Baopart)」を独自に育成しています。
徹底した丁寧なコミュニケーションのもと、互いの違いをリスペクトし、共助し合う文化が浸透した、プロフェッショナリズムにあふれる唯一無二のコミュニティこそがバオバブの最大の強みなのです。

提供サービス

LLM開発/ファインチューニング用データセット構築/RLHF/モデル評価

自然言語のAI開発に関する豊富な実績と見識を持つ専門家による大規模言語モデル(Large Language Models、LLM)の開発、モデルの精度を高めるのに不可欠なファインチューニング用のデータセット構築、AIのパフォーマンスを最大限に引き出すRLHF(Reinforcement Learning from Human Feedback)、及びモデルの評価まで一貫して承ります。

画像アノテーション/音声書き起こし

2015年以来、バウンディングボックス(Bounding Box)、 ポリゴン(Polygon)、セマンティック セグメンテーション(Semantic Segmentation)、キーポイント付与(Keypoint)、動画へのアノテーション、そして動画や静止画へのキャプション付与などマルチモーダル分野向けも多数承っております。また、アノテーションのみならずモデルの学習・評価まで実施し、データの改善につなげる評価レポートサービス「Baobab AutoML Vision Report」サービスも併せてご提供可能です。

音声書き起こし/アノテーション

ELAN等にて音声をテキストに書き起こし/ タグ付け
日本語のみならず英語・中国語など多言語も承ります。

テキストアノテーション

タグ付け / 分類/ 固有名詞抽出など

機械翻訳用学習データ構築

創業以来、数百万文字規模のプロジェクトを中心に研究機関や大学に機械翻訳のため学習データ(対訳)をどこよりも速くリーズナブルな価格で提供してきました。

多言語対訳シナリオ作成

ご要望に沿った設定・対話シナリオを元に、ネイティブによる読み上げ音声データの作成、2人の話者が自由な発話表現で対話を行う模擬会話、書き起こしテキストなどを指定された形式でご納品します。

画像収集 / 音声収集

自社開発したモバイルアプリツール「moringa」を使って、世界中のパートナーが画像収集、他言語発話音声や雑音収集を行います。

なぜバオバブ?

バオバブのアノテーションは、以下のような点で世界中のクライアントから評価されています。

1.高品質なデータ構築

  • プロジェクト管理者(Baocaptain)による的確な仕様策定、パートナー(Baopart)が迷うことのない作業ルールの作成、クライアント・パートナー双方への丁寧なコミュニケーション、品質管理者による日々の進捗とデータチェック、納品前のクオリティチェックなど、高い品質を担保するために緻密な業務フローと組織、システムを確立しています。

2.スピーディな納品

  • パートナーのフィードバックを受けて常にアップデートし続けている独自開発のアノテーションツールを使うことで、スピーディかつ的確なデータ作成が可能。パートナーとともに日々、生産性の向上に取り組んでいます。また、自社開発のシステムはセキュリティ面も安心です。

3.小ロットのテスト発注

  • 「大規模データ作成の発注の前に、少量のデータでテストをしてみたい」
    お任せください。私たちは小ロットのご発注にも対応しています。また、プロトタイプ構築に向けて素早くPDCAを回したい場合も、臨機応変にお客様のニーズにお応えします。

4.働くパートナーの多様性

  • 世界各国在住の多国籍のパートナーが、多言語での音声データ収集や翻訳サービスに対応しています。グローバルな大規模プロジェクトなど、新たにチームアップすることなく即時対応が可能です。
    パートナー居住地(例):日本、ベトナム、タイ、中国、台湾、英語圏、他

高品質の理由

高品質でスピーディなデータ納品を可能にする、バオバブの社内体制とは

  • 1. 質を追求するための独自の教育体制

    バオバブでは、プロジェクトに関わる全てのスタッフ(キャプテン・チェッカー・リーダー・パートナー)が、アノテーション作業の重要性を学ぶとともに、質の高い作業に必要なスキルを習得していくトレーニングを必ず実施しています。
    トレーニングの最後にはテストが実施され、その合格者だけがプロジェクトに参加することを許されます。

  • 2. 適材適所のアサイン・トレーニング

    アノテーションの作業ルールや対象物はプロジェクトごとに千差万別。たとえ同じ対象物でも、ルールが異なると作業内容も大きく変わります。
    パートナーのスキルレベルを考慮したアサインを前提として、各人にプロジェクトごとに用意されたトレーニングを受けてもらい、テストの合否でプロジェクトへの参加者が決定しています。

  • 3. 高品質を担保する社内コミュニケーション

    トレーニング開始から納品までの全プロセスを通じて、チェッカー・リーダーがパートナーを徹底的にサポート。質問には迅速に対応( 24H以内に回答)し、必要であればすぐにガイドラインを修正し、迷わず作業ができる環境を作り上げます。
    トラブル時には「ヒトではなくコトに向かう」「否定せず褒め合う」文化が浸透しているため、パートナーがモチベーション高く作業に取り組む雰囲気を作っています。

高品質なアノテーションを実現するバオバブ独自の各種ツール

精密な作業を効率よく進めるためのアップデートは全て社内で行っています。

  • Baobab Pose Annotation

    対象物の領域指定(Polygon/Rectangle)・タグ付け・特徴点付けができるWebツール

  • Semantic Segmentation

    Semantic SegmentationができるWebツール

  • Baobab-Caption

    画像・動画にキャプション付けができるWebツール

  • Moringa-i

    画像収集及び提供された画像ににタグ付け・キャプション付けができるスマートフォン用アプリ

作業の管理体制

①案件概要のヒアリング

ご依頼内容をヒアリングし、案件受託可否を検討させていただきます。

②要件定義

具体的な要件設計の後、パートナー向けガイドラインが作成されます。

③作業者トレーニング

高品質を担保するため、ガイドラインに沿ったオリエンテーションと練習・テストを行ったのち、担当パートナーを決定・チーム編成をします。

④アノテーション作業

パートナーがアノテーション作業にあたります。

⑤社内クオリティチェック

リーダー、チェッカーによる、2段階のデータ確認を行い品質の担保を図ります。

⑥納品

画像アノテーション主な実績

  • 画像キャプション付け

    画像に説明文を付与

    分量
    400,000 Caption
    作業日数
    90日
  • MSCOCOのデータセット
    再アノテーション

    MSCOCOのデータセットの内5種類のタグを対象にバオバブで再アノテーションを実施
    (2022年CVPR WSにて論文採択)

    分量
    637,717 objects
    作業日数
    26日
  • 交通画像のアノテーション

    公道を撮影した画像に、人物、車両、道路設備などにBounding Boxおよびタグを付与

    分量
    48,875 Objects
    作業日数
    9日
  • フォークパレットの
    アノテーション

    フォークパレットの指定された個所にBounding BoxおよびKeypoint4点を付与

    分量
    6,951 Objects
    作業日数
    5日
  • 果実のアノテーション

    果実にBoundingBoxを付与し、熟成度に応じてタグ付けを実施

    分量
    15,750 objects
    作業日数
    12日
  • 道路損傷のアノテーション

    道路の亀裂にBounding Boxとタグ付けを実施

    分量
    12,236 Objects
    作業日数
    7日
  • オクルージョンレベルの
    タグ付け

    対象物のオクルージョンレベルを確認し、3種類のタグ付けを実施

    分量
    100,841 Objects
    作業日数
    11日
  • 建物のアノテーション

    建物の輪郭をPolygonで囲いタグを付与

    分量
    2,290 objects
    作業日数
    8日
  • 衛星写真のアノテーション

    衛星から撮影された画像の中で指定された地形をPolygonで囲いタグを付ける作業

    分量
    1,783 Objects
    作業日数
    5日
  • 顔のアノテーション

    顔の指定された箇所にKeypoint68点を付与

    分量
    839 Objects
    作業日数
    12日
  • 猿のアノテーション

    猿の輪郭をPolygonで囲い、指定された顔の部位、体の関節など17点にKeypointを付与

    分量
    10,000 objects
    作業日数
    9日
  • 漂着物のアノテーション

    ドローンで撮影された海岸に散乱する漂着物に、種類ごとにSemantic Segmentationを実施

    分量
    5,650 Segments
    作業日数
    9日
  • 地形のアノテーション

    指定された地形に対してSemantic Segmentationを実施

    分量
    21,346 Segments
    作業日数
    28日

その他(テキスト・NLP関連学習データ)主な実績

  • 対話書き起こしとラベル付け

    対話を書き起こして特定の発話範囲にラベル付けする作業

    分量
    200対話 (約30時間分)
  • 対話データアノテーション

    発話区切りで分割、それぞれの発話意図をタグ付け

    分量
    340対話 (約110時間分)
  • 名付けアノテーション

    対話文中の名付けを抽出、属性分類・関連をタグ付け

    分量
    500対話
  • 日本語テキストの品質評価

    日本語テキストの流暢性・妥当性を評価

    分量
    20,000文
  • 日本語記事要約コーパス作成

    キーワードを抽出して記事要約を作成
    予め抽出されたキーワードを使って記事要約を作成

    分量
    1,700文
  • 読解データ作成

    指定文献の内容で答えられる質問の作成、及び当該質問の回答を文献内にマーク付け

    分量
    3,200セット
  • ラベル間の関連付け
    アノテーション

    2つのラベルの関係をアノテーション

    分量
    230,000件
  • ツイートラベリング作業

    日本語ツイートにラベル付与

    分量
    10,000ツイート
  • 対話コーパスデータの
    対訳作業

    日英対話コーパスデータの対訳作業

    分量
    460対話
  • 英文テキストデータの
    収集作業

    音声ファイルの内容の違いを英文で記述する作業

    分量
    40,000件
  • ビジネスシーン対話
    コーパス作成

    機械翻訳用日英対話シナリオ作成

    分量
    97,000文

クライアントボイス

Preferred Networks 代表取締役副社長

岡野原 大輔

「高クオリティで様々な要求に応じた画像アノテーションデータ・セットを作成していただいております。またアノテーターも一人ひとり管理されているため、機密性が高いデータのアノテーションもお願いしております。」

カーネギーメロン大学 言語技術研究所(CMU-LTI) 准教授

Graham Neubig

「バオバブに研究用のデータ作成を何回も頼んでいますが、少し変わった依頼でも快く、柔軟に対応していただき、大変助かっています。ぜひおすすめします。」

主要取引先