この6ヶ月間、私はHugging FaceとNotion AIの両方を徹底的に使い込んできました。正直に言うと、この2つを比較するのは化学実験室と会議室を比べるようなものです。根本的に目的が違います。しかし、どちらも名前に「AI」と付いているため、「データサイエンスにはどちらが良いのか」とよく聞かれます。答えは複雑で、あなたがどんなデータサイエンティストかによって完全に異なります。
それぞれのツールでの体験、実際に作ったもの、そして各ツールが本当に輝く(あるいは完全に失敗する)ポイントをお伝えします。
各ツールの実際の機能
Hugging Face は、機械学習モデルが生き、呼吸し、共有される場所です。50万以上のモデル、25万以上のデータセット、そして実際に論文を読むコミュニティがあるプラットフォームです。テキスト分類用の事前学習済みモデルを見つけ、自分のデータでファインチューニングし、APIとしてデプロイするために使います。エンジニアがエンジニアのために作りました。
Notion AI は、メモ作成・プロジェクト管理ツールに組み込まれたライティングアシスタントです。メールの下書き、議事録の要約、プロジェクト名のブレインストーミング、そして創造的に使えばデータ問題の思考整理にも役立ちます。プロダクトデザイナーがナレッジワーカーのために作りました。
初めてNotion AIで実際にモデルを訓練しようとした時、思わず笑ってしまいました。そんなことはできません。そして初めてHugging Faceでプロジェクト提案書を書こうとした時、20分間ドキュメントを読んで諦めました。
クイック比較表
| 機能 | Hugging Face | Notion AI |
|---|---|---|
| 主な目的 | モデル共有、訓練、デプロイ | AI支援ライティング&プロジェクト管理 |
| MLモデルを訓練できる? | 可能(AutoTrain、Spaces、ローカル統合) | 不可 |
| コード実行 | 可能(SpacesのGradio/Streamlit) | 不可 |
| ライティング支援 | 最小限(ドキュメントのみ) | 中核機能 |
| データセットホスティング | 可能(数千の公開データセット) | 不可 |
| コラボレーション | Gitベース(プルリクエスト、フォーク) | リアルタイム編集、コメント |
| 価格 | 無料枠+有料コンピュート | AI機能は月額10ドル |
| 学習曲線 | 急(ML知識が必要) | 緩やか(誰でも始められる) |
| 最適なユーザー | MLエンジニア、研究者、データサイエンティスト | プロダクトマネージャー、ライター、一般チーム |
Hugging Faceをデータサイエンスで使った体験
2年前、カスタマーレビューの感情分析モデルが必要でHugging Faceを使い始めました。設定ファイルと依存関係の地獄を覚悟していました。ところが、distilbert-base-uncased-finetuned-sst-2-englishというモデルを見つけ、4行のPythonコードでそのまま動きました。
本当の威力を感じたのはdatasetsライブラリを使い始めた時です。フランス語の製品説明データセットが必要で、5分以内にwikipedia(フランス語にフィルター)、flores(翻訳ペア用)、そして誰かがKaggleコンペからアップロードしたカスタムデータセットを見つけました。スクレイピングもクリーニングも不要で、load_dataset("some_french_dataset")だけで完了しました。
しかし、Hugging Faceが厄介なのはここです。モデルハブは混沌としたマーケットプレイスです。「best-sentiment-classifier-ever」というモデルが、誰かがランダムな重みでアップロードしたジョークだったりします。品質管理はありません。壊れていたり、トークナイザーが欠けていたり、自分のユースケースに合わないデータで訓練されたモデルをテストして、午後を丸々無駄にしたことが何度もあります。
Spaces機能は本当に便利です。Gradioを使ってテキスト要約モデルのデモアプリを約1時間で作りました。Hugging Faceに無料でホストされ、チームにリンクを共有しました。彼らは何もインストールせずに段落を入力して要約を得られました。これがHugging Faceがユーザーフレンドリーに最も近づいた瞬間です。
実際の訓練では、AutoTrainを2回使いました。1回目は完璧に動作しました。ラベル付きメールのCSVをアップロードすると、一晩で分類器を訓練してくれました。2回目は、有料コンピュートを使っているにもかかわらず、「CUDA out of memory」という不可解なエラーで静かに失敗しました。デバッグ用のドキュメントは薄いです。自分が何をしているか分かっていることが前提です。
Notion AIをデータサイエンスで使った体験
Notion AIには長い間抵抗がありました。生産性についてブログを書く人たちのためのギミックだと思っていました。ところがチームがプロジェクト管理に採用し、好奇心からAI機能を使い始めました。
最初に本当に役立ったのは、「L1正則化とL2正則化の違いを簡単な言葉で説明して」と依頼したことです。明確で簡潔な段落が返ってきて、非技術的なステークホルダー向けのプレゼンにそのまま貼り付けられました。完璧ではありませんでしたが(数学を簡略化しすぎていました)、ゼロから書く15分を節約できました。
毎週のデータサイエンススタンドアップ後の議事録作成にも使っています。「プロダクション分類器のモデルドリフト問題について議論、再訓練スケジュールの可能性、チームのアプローチが分かれる」といった箇条書きを入力すると、Notion AIが首尾一貫した段落に変換します。革新的ではありませんが、便利です。
ブレインストーミング機能は当たり外れがあります。「時系列予測問題のための特徴量エンジニアリングのアイデアを提案して」と依頼すると、「ラグ特徴量を使う」「移動平均を検討する」といった一般的な提案が返ってきました。ジュニアデータサイエンティストでも思いつく内容です。「ローリング相関を計算するPython関数を書いて」と依頼すると、構文的には正しいが非推奨のpandasメソッドを使ったコードが生成されました。修正が必要でした。
最大の失望は、Notion AIがデータに接続できないことです。実際のデータセットがどのようなものか全く分かりません。「このCSVを分析して」とか「モデルの精度が下がった理由を説明して」とは言えません。テキストプロンプトと一般的な知識で動作しており、特定のデータサイエンス問題には対応していません。
Hugging Faceが勝つ理由(そしてその理由)
Hugging Faceは、実際の機械学習を伴うあらゆるタスクで勝ります。以下のような場合:
- 特定のタスク(テキスト、画像、音声、マルチモーダル)用の事前学習済みモデルを見つける
- 自分のデータでモデルをファインチューニングする
- モデルのデモやAPIエンドポイントをホストする
- 研究や実験用の厳選データセットにアクセスする
- 他のMLエンジニア