
2026/06/24 2:50
FUTO スワイプ:新たなスワイプタイピングモデル
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
主なイノベーションは「FUTO Keyboard」というプライバシーを最優先とした Android アプリであり、クラウドサーバーの必要性なくデバイス上で迅速かつ正確なスワイプタイピングを可能にします。データをローカルに保持することで、キーストロークを外部ネットワークへ送る際に生じる一般的なセキュリティリスクを排除します。推論はオンデバイスで実装されており、サーバーサイドデモと比べてはるかに低いレイテンシを実現しています。ミリ秒単位で入力を処理し、エラーレートは 1% を下回ります(具体的には、ビーム幅 300 を使用したテストセットにおいて、トップ 4 の失敗率は約 4%、エラー率は 1% 未満です)。
技術の基盤となるのはオープンなモデルファミリ(Encoder、ContextLM、Decoder)で、総パラメータ数 2,494,767 のうち有効パラメータは 1,364,271 です。低性能向けスマートフォンを最適化しています。「swipe-library」という C++ ライブラリが推論とビームサーチを担当し、スワイプパスから単語予測への変換を行います。学習は効率的で、ワークステーション用 GPU 1 台のみで完了しました。開発者は 2024 年 8 月にデータセット収集を開始し(100 万件以上のユーザーのスワイプデータを収集)、2025 年 3 月に MIT ライセンスの下で HuggingFace にフィルタリングされた 100 万件のスワイプデータをリリースしました。モデルは FUTO モデルライセンス、推論ライブラリは GPL の下に利用可能です。エンドユーザーへの謝示は長期投資合意の一部として必須であり、速度とプライバシーを最優先とするオフラインモバイル入力の持続可能なエコシステムを支えています。
本文
FUTO Swipe: 高速で正確なオフラインスワイプタイピングシステム
今日から完全オフライン対応の Android キーボードアプリ「FUTO Keyboard」で利用可能です。また、モデルをダウンロードしてご自身でも構築することもできます。
本ページはサーバーサイドで動作するデモサイズですが、実際の運用ではオンデバイス実行となるため大幅な遅延低減が実現します。
背景とライセンスの意義
長らく優れたモバイル向けスワイプタイピングは、プライバシー侵害的なキーボードアプリや非ライセンスの私有ライブラリに限定されていました。「FUTO Swipe」はこの課題を解決するオープンなモデル群およびアルゴリズムファミリーです。
- 目的: 「FUTO Keyboard」の開発のために作られました。
- 公開方針: より広いコミュニティでの利用を歓迎します。
- ライセンス: 長期的な投資であるため、エンドユーザーに対して明確な帰属表示をお願いしています。(詳細は ライセンス を参照)
データセットの構築
2024 年 8 月、
swipe.futo.org ドメインでスワイプ入力データの収集キャンペーンを開始しました。
- 収集方法: ウィキペディア由来の文章を表示し、単語ごとのスワイプ入力をユーザーにおこなって収集。
- データ量: 100 万件以上のスワイプデータを収集(低品質なものは除外済み)。
- 公開情報: 2025 年 3 月にMIT ライセンスの下に公開され、現在 HuggingFace で入手可能です。
- 活用法: モデルの訓練および異なるスワイプタイピングシステムの評価に大規模に活用されています。
モデル群の構成と性能
当アーキテクチャには以下の 3 つのモデルタイプが含まれています。
1. エンコーダーモデル
- 特徴: 汎用的なレイアウト不可知・言語不可知モデル。
- 用途: 一般的なケースでのスワイプタイピング予測に用いられます。
- 性能: 最先端の精度は提供していません。
2. ContextLM モデル
- 特徴: 単一言語ごとに訓練された非常に軽量な言語モデル。
- 仕組み: 文脈内における無意味な単語を除外することで予測品質を向上。
- 訓練データ: テキストデータのみの利用で可能。
3. デコーダー
- 特徴: 特定の言語とレイアウトに特化したモデル。学習した特徴により最高水準の精度を実現。
- 現状: 専用のスワイプ入力データを必要とするため、QWERTY 配列・英語用デコーダーのみが提供されています。
パフォーマンス指標
エンコーダー、ContextLM、デコーダーの 3 つを組み合わせ、ビーム幅を 300 と設定した場合:
- Top-4 失敗率: テストセットでは約 4% に抑えられています。
- 誤差率: 語彙外ケースを除けば 1% 未満 です。
注記: これらの数値はベンチマークに依存するため実環境での結果にはばらつきが生じる可能性があります。しかし、大手科技企业のキーボードと同等の実績を有すると考えております。
メモリーフットプリントとハードウェア要件
モデルサイズは極めて小さく、低スペックデバイスでもミリ秒単位での動作が可能となっています。
- エンコーダー: 635,140 パラメータのみ。
- デコーダー追加: さらに 304,155 パラメータを付加。
- ContextLM(最大規模):
- 総パラメータ数: 2,494,767
- そのうち埋め込み層: 110 万(計算寄与なし)
- アクティブなパラメータ数: 1,364,271
この小ささがもたらす環境負荷の低さ:
- トレーニング環境: 高性能な GPU は最大1 シードワークステーション程度で済みます。
C++ ライブラリ「swipe-library」
モデルからの予測値だけでは実用的ではなく、辞書制約付きのビーム検索を行い、最も可能性の高い候補を特定する必要があります。
- 機能: スワイプパスから単語予測までの全体推論、デコーディング、ビーム検索を一括で実現。
- 言語: C++ で記述された**「swipe-library」**を開示済みです。
オープンソースへの公開と将来性
FUTO Swipe を使って何かを創造したい方は、FUTO モデルライセンスおよび GPL ライセンスの下での利用が可能なモデル群と推論ライブラリをご用意しております。
- 対応デバイス: スマートフォンはもちろん、ノートパソコンのトラックパッドでも利用可能です。
- 詳細情報: 具体的な訓練方法やアーキテクチャの詳細については、論文を準備中です。