Show HN: レゾネート-低遅延かつ高解像度のスペクトル分析ツール

2026/06/07 3:09

Show HN: レゾネート-低遅延かつ高解像度のスペクトル分析ツール

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Resonate は、感性的な関連性を持つオーディオ情報を最小限のレイテンシ、メモリ、および計算コストで分析するための画期的な軽量アルゴリズムです。传统の方法では、信号を周波数成分に変換するがリアルタイムの精度には苦しめられることが多い高速フーリエ変換(FFT)に依存していますが、Resonate はそれらなしで高い時間分解能を達成します。時間に対して信号データを滑らかにし、大きなストレージバッファを必要としない技術である指数加重移動平均(EWMA)を利用して、直接位相の差分から瞬間的な周波数および角速度を計算します。このアプローチにより、システムは 1 秒間に 44.1 kHz で 112 の共鳴器を処理し、わずか 1.46 ミリ秒ごとにスペクトルスライスをレンダリングできます。Librosa の Constant Q Transfor m といった標準的なツールと比較して、Resonate はリアルタイムアプリケーション向けに優れたパフォーマンスを示します。François が 2025 年に開発し、後に動的追跡のために拡張されたこのアルゴリズムは、Python、C++、Swift のオープンソースライブラリを通じて利用可能です。このブレークスルーは、周波数シフト、時間操作、速度変化などリアルタイムの機能を持つ新しいオーディオ合成ツールの構築を可能にし、アクセス可能なオーディオ分析における重要な進歩を表しています。

Text to translate:

Summary: Resonate is a groundbreaking lightweight algorithm designed to analyze perceptually relevant audio information with minimal latency, memory, and computational costs. Unlike traditional methods relying on Fast Fourier Transforms (FFT)—which convert signals into frequency components but often struggle with real-time precision—Resonate achieves high temporal resolution without them. By utilizing an Exponentially Weighted Moving Average (EWMA), a technique that smooths signal data over time without needing large storage buffers, it calculates instantaneous frequency and angular velocity directly from phase differences. This approach allows the system to process 112 resonators at 44.1 kHz, rendering a spectral slice every mere 1.46 milliseconds. Compared against standard tools like Librosa's Constant Q Transform, Resonate demonstrates superior performance for real-time applications. Developed by François in 2025 and later extended for dynamic tracking, the algorithm is available through open-source libraries in Python, C++, and Swift. This breakthrough empowers developers to build new audio synthesis tools capable of real-time frequency shifting, time manipulation, and speed changes, marking a significant step forward in accessible audio analysis.

本文

Resonate: 効率的な低遅延周波数分析

概要

Resonate は、音信号から知覚的に重要なスペクトル情報を評価するためのアルゴリズムです。主な特徴は以下の通りです:

  • 低遅延低メモリフットプリント計算コストが低い
  • 時系列領域において、EWMA(指数加重移動平均)を用いた共振器モデルを基盤としています。
    • EWMA はより最近の入力値に重みを付与し、過去の値の寄与は指数関数的に減衰します。
  • 緊密で反復的な形式化により、各入力サンプルに対して更新計算のみを実行可能です。
    • バッファリングを不要とします。
    • 単なる数個の算術演算だけで済み、極めて効率的です。

数学的定式化

各共振器(インデックス (k))は固有の自然共振周波数と瞬時の共振周波数 (f_k(t) = \frac{\omega_k(t)}{2\pi}) で特徴付けられ、複素数 (R_k(t)) で記述されます。

1. 基本更新式 実数値の入力信号 (x(t) \in [-1,1]) の各サンプルに対して、位相回転子 (P_k(t)) を通じて漸化式を更新します(サンプリング周波数:(sr)、サンプル継続時間:(\Delta t = 1/sr))。

[ P_k(t) = P_k(t-\Delta t) e^{-i \omega \Delta t} ]

[ R_k(t) = (1-\alpha_k) R_k(t-\Delta t) + \alpha_k x(t) P_k(t) ]

パラメータ (\alpha_k)

  • 範囲:(\alpha_k \in [0,1])
  • 役割:新しい測定値が蓄積された値に与える影響度を規定します(時間定数の関数)。
  • 設定例:音声アプリケーションでは、20–20,000 Hz の範囲に対して (\alpha_k = 1 - e^{-\Delta t \frac{f_k}{\log(1+f_k)}}) が合理的な経験則となります。

2. 平滑化 パワーと位相の振動を抑制するために、パラメータ (\beta_k) を用いて (R_k) に EWMA を適用し、平滑化された状態 (\tilde{R}_k) を得ます。

[ \tilde{R}_k(t) = (1-\beta_k) \tilde{R}_k(t-\Delta t) + \beta_k R_k(t) ]

  • この定式化は、Dolson (1986) の「The Phase Vocoder: A Tutorial」におけるフィルタバンク解釈(第 1 ステップ:heterodyning 後の低域フィルタリング)と一致します。
  • 利点:入力信号の各サンプルごとに状態を更新するにはごく少数の算術演算しか必要ありません。パワーや絶対値の計算は必須ではなく、必要な場合のみ実行することで効率的に処理可能です。

性能特性

  • リアルタイム推定:知覚的に重要な周波数スケールに独立してチューニングされた共振器のバンクにより、入力信号のスペクトル内容に対する直感的な推定値を瞬時計算します。
  • スケーラビリティ:メモリ使用量およびサンプルごとの計算複雑性は、共振器の数に比例し、処理された入力サンプル数や信号の長さには依存しません。
  • 並列性:共振器同士が独立しているため、すべてのサンプルごとの計算を共振器間で並列化可能です。
    • オフライン処理では、累積計算コストは処理された入力サンプル数に応じて線形に増加します。
  • 柔軟性:(François, 2025) のオリジナルモデルは FFT と同様に固定周波数を採用しましたが、Resonate では共振器の共振周波数変化に対する制限はありません。

追跡型モデル (Tracking Model)

(François, 2026) で紹介された拡張モデルでは、共振器の共振周波数が時間とともに変化する機能を付与しています。

動作ロジック

  • 無信号時:(R_k(t)) が絶対値閾値未満の場合、共振周波数は固有の自然共振周波数に固定されます。
  • 有信号時:顕著な応答が検知される場合、共振周波数は推定された瞬時周波数を追跡します。

瞬時周波数の計算

各時間ステップにおいて、前時の (\tilde{R}_k(t-\Delta t)) と現在の (\tilde{R}_k(t)) の間の位相差 (\Delta \phi_k(t)) を算出し、瞬時周波数を更新します。

[ f_k(t) = f_k(t-\Delta t) + \frac {\Delta \phi_k(t)}{2\pi \Delta T} ]

計算手法の効率化

  • 複素数の共役乗積を用いることで、位相差 (\Delta \phi_k(t)) を効率的に計算します。 [ D_k(t) = \tilde{R}_k(t) \overline{\tilde{R}_k}(t-\Delta t) ] [ \Delta \phi_k(t) = Arg(D_k(t)) ]
  • 主値(principal value)の引数計算は 1 回のみで済み、**位相の巻き戻し(phase unwrapping)**という問題を回避できます。
    • これは FFT ベースのボコーダー解析においてホップ長 > 1 の場合や、明示的な位相引き算が必要な場合に不可欠な利点です。

角速度の安定化

位相変化を時間定数 (\gamma_k) を持つ EWMA で滑らかにし、系を安定化します。

[ \omega_k(t) = \omega_k(t-\Delta t) + \gamma_k \frac{\Delta \phi_k(t)}{\Delta T} ]

この構成により、振幅と周波数が入力サイン波に追従する際、共振器の自然周波数は推定された入力周波数に素早く適応し、共振器の振幅は信号の振幅に直接比例します。これにより、入力内容に応じて自己チューニングを行う高密度な解析が可能になります。


スペクトログラム

時間に対するスペクトル情報は、通常、人間向けの可視化であるスペクトログラムとして提示されます(横軸:時間、縦軸:周波数)。各点は当該時間帯の周波数パワーを示し、最大値で正規化された対数色スケールで描画されます。

クラシックなスペクトログラム

適切にチューニングされた Resonate オシレーターバンクは、FFT ベースの手法よりも高い時間解像度かつより適切な周波数解像度を有し、任意の周波数スケールのスペクトログラムを直接的かつ効率的に計算できます。

  • 比較対象:Librosa の
    specshow
    関数(CQT)との直接比較です。
  • 例 1: Librosa の vibeace 音楽例
    • サンプリングレート:22,050 Hz
    • ホップ長:512 サンプル
    • 周波数範囲:32.7 Hz – 9,955.1 Hz (100 バイン、オクターブあたり 12 ビン)
  • 例 2: Librosa の Libri3 音声サンプル
    • サンプリングレート:22,050 Hz
    • ホップ長:32 サンプル
    • 周波数範囲:0 – 8,000 Hz (128 バイン)

追跡型スペクトログラム

周波数追跡型の共振器バンクを用いてリアルタイムに計算された実際の信号のスクリーンレコーディングです。

  • 入力仕様:44.1 kHz サンプリングレート。
  • 描画範囲:32.7 Hz – 19,910 Hz(幾何学的間隔、112 共振器、336 バンド)。
  • 更新頻度:64 サンプル(約 1.46 ms)ごとにリアルタイムでスライスを描画。
  • 時間解像度:入力信号自身の解像度限界と同等です。

シンセシス(合成)

Resonate の処理により得られる高密度な振幅・位相情報は、音響信号のシンセシスに利用可能です。

基本原理

個々の周波数追跡共振器 (\tilde{R}_k(t)) に**逆位相回転子 (P_k^{-1}(t))**を適用することで、複素数 (S_k(t)) を導出します。これに基づいて入力信号の成分に対応する音響信号を生成できます。

  • 周波数シフト比 ((fs))
    • (1) の場合:周波数は変化しません。
    • (> 1) の場合:高音化(ピッチアップ)。
    • (< 1) の場合:低音化(ピッチダウン)。
  • サンプリングレート変更 ((sr_s))
    • 入力と同等の場合:タイミングや速度は維持されます。
    • より高い場合:短時間化(shorter)。
    • より低い場合:長時間化(longer)。

合成式

[ P_k^{-1}(t) = P_k^{-1}(t-\Delta t_s) e^{i \omega_k(t) fs \Delta t_s} ] [ S_k(t) = \tilde{R}_k(t) P_k^{-1}(t) ]

最終的な音響信号 (s(t)) は、追跡された自然周波数に最も近い共振器の (S_k(t)) を加算し、実部のみを抽出することで得られます。

[ s(t) = K Re( \sum{S_k(t)} ) ]

シンセシス例

"Who's Loving You"(The Jackson 5)

  • オリジナル
    • [音声要素のプレースホルダー]
  • 速度バリアント
    • 周波数シフトなし (100%)
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]
    • 低音化 2 セミトーン (80%)
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]
    • 高音化 2 セミトーン (120%)
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]

"Une Simple Melodie"(Michel Polnareff)

  • オリジナル
    • [音声要素のプレースホルダー]
  • 速度バリアント
    • 周波数シフトなし (100%)
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]
      • [音声要素のプレースホルダー]
    • 低音化 2 セミトーン (50%)
      • [音声要素のプレースホルダー]
    • 高音化 2 セミトーン (75%)
      • [音声要素のプレースホルダー]
    • 低音化 1.5 オクターブ(約 2 セミトーン下、速度文脈で 150%)
      • [音声要素のプレースホルダー]
    • さらに高音化 2 セミトーン (200%)
      • [音声要素のプレースホルダー]

出版物

  • ベストペーパー賞 | Alexandre R.J. François, "Resonate: Efficient Low Latency Spectral Analysis of Audio Signals," in Proceedings of the 50th Anniversary of the International Computer Music Conference 2025, pp. 251-258, Boston, MA, USA, 8-14 June 2025. [pdf]
  • Alexandre R.J. François, "Real-Time, Low-Latency, High Resolution Audio Spectral Analysis: Phase Matters," to appear in Proceedings of the International Computer Music Conference 2026, Hamburg, Germany, 10-16 May 2026.

プレゼンテーション

  • Alexandre R.J. François, "Real-time, low latency and high temporal resolution spectrograms," Audio Developer Conference (ADC25), Bristol, November 10-12. [pdf] [YouTube の動画]
  • Alexandre R.J. François, "Real-time low latency audio features with Resonate" (Late-Breaking Demo Paper), First AES International Conference on Artificial Intelligence and Machine Learning for Audio (AIMLA 2025), London, Sept. 8-10, 2025. [pdf]

リソース

  • noFFT:オープンソースの Python モジュール。Resonate 関数の Python および C++ 実装を提供し、オフライン環境での使用を説明する Jupyter ノートブックも含まれています。
  • Oscillators Swift パッケージ:オープンソースのパッケージ。Swift および C++ の参照実装を含みます。Oscillators アプリは、リアルタイムのスペクトログラムおよび誘導された音響特徴をデモしています。
  • Resonate YouTube プレイリスト:リアルタイムデモのビデオキャプチャーが掲載されています。
  • Resonate Store

同じ日のほかのニュース

一覧に戻る →

2026/06/10 1:58

クロード・フェブル 5

## 日本語訳: 以下の改善されたバージョンでは、欠落していた安全性の詳細、具体的な価格設定構造、データ保持ポリシー、および可用性のタイムラインを補いながら、明瞭性を維持しています: ## まとめ: Anthropic は、一般使用に安全であり、ソフトウェア工学、可視化解析、長期コンテキスト処理、科学的研究、およびメモリータスクにおいて従来のすべてのバージョンを超えた「Mythos クラス」のモデルである **Claude Fable 5** を導入しました。同モデルは直ちに API とサブスクリプションプラン(Pro から Enterprise まで)で利用でき、6 月 22 日まで利用可能です(6 月 23 日からは使用クレジットに移行)。価格は入力トークンあたり **10 ドル**、出力トークンあたり **50 ドル** で設定されており、Claude Mythos Preview など以前のプレミアムモデルよりも大幅に安価です。 Fable 5 は転換的な性能向上を提供し、以前は何ヶ月もかかった工学タスクを数日へと圧縮するとともに、薬剤設計を約 10 倍加速させます。安全性と有用性のバランスを取りつつ、Fable 5 におけるセンシティブなトピックに関するクエリについては、**Claude Opus 4.8** にフォールバックを行う設定となっており、これは保守的なチューニングによりセッションの **約 5% よりも少ない割合** で発生します。さらに、特定の分類器は生物学/化学分野での危険な研究の向上や悪意のあるハッキング試行をブロックします。また、Anthropic は Mythos クラスモデルに対して新しい **30 日間のデータ保持ポリシー** を実施し、このトラフィックを新モデルの訓練や安全性以外の目的で使用することを禁止しています。 一般向けの Fable 5 バージョンは依然として非常に安全ですが、未検閲バージョンである **Claude Mythos 5** は、15 カ国以上で選択されたサイバーセキュリティおよびインフラストラクチャパートナー(将来的には約 150 の新しい組織へ拡大)を独占的に対象とする **Project Glasswing** を通じて利用可能です。この戦略的動きは、責任ある使用基準を損なうことなく科学的発見を加速し、重要インフラのセキュリティを強化することを目的としています。プログラムには、将来、特定の生命科学研究者のために生物学/化学の safeguards を解除する計画も含まれています。

2026/06/10 6:01

NPM バージョン 12 で導入される予定のbreaking changes

## Japanese Translation: npm v12 開始(推定リリースは 2026 年 7 月)、`npm install` に対してより厳格なセキュリティデフォルトが適用されます。最も重要な変更は、自動スクリプト実行の無効化です(`allowScripts` がデフォルトでオフ)。明示的に承認されないと、preinstall、install、postinstall スクリプト(`node-gyp` を介するネイティブビルドを含む)がブロックされます。準備のためには、これらの変更を警告付きで利用可能な npm v11.16.0+(またはそれ以降)を使用してください:`npm approve-scripts --allow-scripts-pending` を実行し、信頼できるパッケージについては `npm approve-scripts` で明示的に承認し、他は `npm deny-scripts` で拒否します。結果となる許可リストは `package.json` に書き込まれコミットすべきであり、v12 へのアップグレード後は承認されたスクリプトのみが実行されます。 さらに、デフォルトでは `--allow-git`(npm 11.10.0+ で利用可能)は none に解決され、Git ベースの依存関係に対して明示的なフラグが必要となり、`.npmrc` オーバーライドを介した潜在的なコード実行経路を閉じます。同様に、`--allow-remote`(npm 11.15.0+ で利用可能)はリモート URL から依存関係を解決する場合にデフォルトで none に設定されます。`--allow-file` および `--allow-directory` は現在のデフォルトを維持します。保守担当者および CI/CD パイプラインは依存関係を検証し、`package.json` 内の許可リストを更新し、アップグレード前に変更をコミットする必要があります。そうでない場合、手動の例外を設定しない限りビルド失敗となります。詳細は npm ドキュメントの `npm approve-scripts`、`npm deny-scripts`、および `allow-scripts config` をご参照ください。

2026/06/10 4:21

FPGA を用いたKolmogorov-Arnold Networkによる超高速機械学習

## Japanese Translation: 本テキストは、Kolmogorov-Arnold Network(KAN)を Field-Programmable Gate Array(FPGA)上で展開し、超高速機械学習に特化して設計された革命的な新ハードウェアアーキテクチャを導入します。従来の GPU はスケジューリング遅延およびメモリオーバーヘッドによりマイクロ秒以下の応答時間を達成できず苦労しますが、この FPGA ベースのアプローチでは、ニューラルネットワークをリプログラミング可能なデジタルロジックと直接統合するため、アルゴリズムと設計のコデザインを採用しています。固定された重みではなく、B スプライン基底関数によって定義される学習可能なエッジアクティベーションに置き換えることで、伝統的なルックアップテーブルモデルに見られるような指数関数的スケーリングの問題を回避します。この手法は、定点符号化によるデータエンコーディングの簡素化を実現し、トレーニングの安定性を確保します。主な革新点は、「B スプラインの局所性」の利用であり、グリッドセルごとにアクティブとなる基底関数の数が限られているため、ネットワークの次数を増やすことなくグリッドサイズを拡大することでモデルを水平方向にスケール可能になります。得られる枠組みは「KANELÉ」と命名され、従来の実装に対する驚異的な 2,700 倍もの速度向上を達成し、オンデバイスでの動的モデル更新が可能となる真のオンライン学習を実現します。この画期的な成果は、量子コンピューティング制御システムなどリアルタイム意思決定が必要な産業に対し、高効率性と継続的改善を支援する GPU の代替として堅牢な選択肢を提供します。大規模テストにおいて、同システムは関数近似やキュビット読み出しなどのタスクで伝統的な MLP よりも優れたハードウェアスケーリングと収束性を示し、50,000 パラメータまで扱いながらマイクロ秒以下のレイテンシを維持しました。

Show HN: レゾネート-低遅延かつ高解像度のスペクトル分析ツール | そっか~ニュース