**Show HN:** 「LoongArch ユーザースペースエミュレーター」

2025/12/24 21:40

**Show HN:** 「LoongArch ユーザースペースエミュレーター」

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

(欠落している重要ポイントを組み込む)

Libloong は、アプリケーションに直接埋め込み可能な軽量で高性能な64ビット LoongArch エミュレータです。既存の RISC‑V フレームワーク上に構築され、コード行数は約18 kライン程度で、インタープリタ呼び出しオーバーヘッドが約4 nsと非常に高速(Lua の約150 nsや Java ランタイムを大きく上回り)です。CoreMark スコアは3000点超となり、64ビットインタープリタの中で最速と言えます。
このライブラリは LoongArch ベクトル LSX/LASX 命令に対応し、C++・Rust・Go バインディングを提供しており、外部依存関係は一切ありません。ファーストクラスの pause/resume サポート、実行タイムアウト/メモリ安全性、ゼロ依存埋め込み機能が備わっているため、ゲームエンジンスクリプティング(例:Asteroid デモ)や組み込みシステムに適しています。
開発者は構成可能なビルドオプション(

LA_DEBUG
LA_BINARY_TRANSLATION
LA_THREADED
LA_MASKED_MEMORY_BITS
)を使用してパフォーマンスを調整できます。軽量 JIT を有効にするとネイティブ速度の約38 %に到達し、バイナリトランスレーションではネイティブの約77 %(31 962 CoreMark)が実現可能で、最大で約90 %まで上昇する見込みです。
ベンチマーク結果は CoreMark が3000点超、C++ での STREAM copy/scale/add/triad レートが約33 146–31 388 MB/s、Rust スタイルの STREAM‑類似結果が Fill では27.9 GB/s、Copy では35.3 GB/s と報告されています。
クイックスタート:LoongArch ELF をロードし、64 MB のメモリを設定し、Linux 引数を構成して
machine.simulate()
を呼び出します。CMake でビルドするには次のようにします。

cmake .. -DCMAKE_BUILD_TYPE=Release \
  -DLA_MASKED_MEMORY_BITS=32 -DLA_BINARY_TRANSLATION=ON && make -j6

ドキュメントには Integration Guide、API Reference、および LoongArch ISA の完全サポートが含まれています。

本文

64‑ビット LoongArch エミュレータライブラリ

高速で軽量なユーザースペースエミュレータライブラリです。
埋め込みアプリケーションやスクリプト用に設計され、 libriscv の実績ある構造を踏襲しつつ、コンパクト(約18 k行)のコードベースで競争力のあるインタープリタ性能を提供します。

  • ディスカッションやサポートは Discord へご参加ください。

特徴

  • LoongArch の高速インタープリタ(JIT をオプション)
  • 非常に低い呼び出し遅延
  • 64‑ビット LoongArch (LA64) 完全対応
  • LSX と LASX ベクトル命令のサポート
  • C++ API、Rust・Go バインディング付き
  • 依存関係なし
  • 実行タイムアウトとメモリ安全性
  • 高度な一時停止/再開機能

デザイン

ゲームエンジン用スクリプトにおいて libloong は特に優れています。
従来のゲームは共有ライブラリ(システム全体へのアクセス)や Lua のような埋め込み VM(約150 ns の呼び出しオーバーヘッド)、あるいは Java ランタイムを用いてモディング機能を公開してきました。
Libloong約4 ns の呼び出し遅延で実現しています。

例として「Asteroid」ゲームをご覧ください。


ビルド

CMake の設定オプション:

LA_DEBUG=ON/OFF                # デバッグ出力を有効化(デフォルト: OFF)
LA_BINARY_TRANSLATION=ON/OFF   # バイナリ翻訳を有効化(デフォルト: OFF)
LA_THREADED=ON/OFF             # スレッド付きバイトコードディスパッチを有効化(デフォルト: ON)
LA_MASKED_MEMORY_BITS=N        # マスクされたメモリアーケナサイズを 2^N バイトに設定 (0 = 無効、デフォルト: 0)

例:

cmake .. -DCMAKE_BUILD_TYPE=Release \
         -DLA_MASKED_MEMORY_BITS=32 \
         -DLA_BINARY_TRANSLATION=ON
make -j6

クイックスタート

#include <libloong/machine.hpp>

int main() {
    // LoongArch ELF バイナリをロード
    std::vector<uint8_t> binary = load_file("program.elf");

    // 64 MB のメモリでマシンを作成
    loongarch::Machine machine{binary, {
        .memory_max = 64 * 1024 * 1024
    }};

    // プログラム引数を設定
    machine.setup_linux({"program"}, {"LC_ALL=C"});

    // プログラムを実行
    machine.simulate();
}

パフォーマンス

STREAM メモリベンチマーク

関数ベストレート (MB/s)平均時間最小時間最大時間
Copy33 146.70.0048840.0048270.004962
Scale27 825.20.0057920.0057500.005920
Add31 388.60.0077120.0076460.007797
Triad29 250.70.0082680.0082050.008379

Rust で書かれた STREAM ライクベンチマーク(例):

Fill   76.3 MiB rate 27.9 GB/s | time min 2.9ms avg 3.1ms max 3.3ms
Copy   153 MiB  rate 35.3 GB/s | time min 4.5ms avg 4.6ms max 5.0ms
Scale  153 MiB  rate 23.0 GB/s | time min 7.0ms avg 7.0ms max 7.1ms
Add    229 MiB  rate 31.9 GB/s | time min 7.5ms avg 7.6ms max 7.7ms
Triad  229 MiB  rate 11.1 GB/s | time min 21.5ms avg 21.6ms max 21.8ms

2025年末時点でレジスターマシンが依然としてトップですが、Libloong は現在最速の64‑ビットインタープリタであり、3000+ CoreMark を安定して達成します。

  • 軽量 JIT: ネイティブ性能の約38 %(15.5k vs 41k CoreMark)で、インタープリタと完全に同等の機能を提供。

    CoreMark 1.0 : 15580.375613 / GCC14.2.0 -O3 -DPERFORMANCE_RUN=1   / Static
    
  • 埋め込みバイナリ翻訳: ネイティブ性能の約77 %(上限≈90 %)に到達。

    CoreMark 1.0 : 31962.238533 / GCC14.2.0 -O3 -DPERFORMANCE_RUN=1   / Static
    

ドキュメント

  • 統合ガイド
  • API リファレンス
  • LoongArch ISA サポート

同じ日のほかのニュース

一覧に戻る →

2025/12/29 7:35

未処理の写真は、実際にどのような姿になるのでしょうか。

## Japanese Translation: --- ### 改良された要約 この記事は、カメラのRAWファイルが鈍く緑色がかった見た目になる理由を説明し、その原因をセンサーのADC出力、カラー・フィルタリング、およびその後の処理ステップに追跡しています。 1. **ADC 出力とコントラスト** – 14ビット ADC は理論上 0–16382 の値を出力しますが、実際のデータは約 2110–136000 の範囲にしかわかりません。これらの限界(黒レベル ≈ 2110、白点 ≈ 136000)を \[ V_{\text{new}} = \frac{V_{\text{old}} - \text{Black}}{\text{White} - \text{Black}} \] で再マッピングするとコントラストが向上します。 2. **カラーキャプチャ** – センサーは光の強度を記録し、色ではありません。ベイヤーフィルタグリッドは各ピクセルに単一の RGB コンポーネントを割り当てるため、初期画像にはピクセルあたり真の RGB の 1/3 のみが含まれます。 3. **デモザイキングとダイナミックレンジ** – デモザイキングは隣接ピクセルを平均化してフルカラー画像を作成しますが、依然として動的範囲が限定されます。線形 RAW データは、環境光や画面ガンマを考慮しないため、典型的なディスプレイ上で非常に暗く見えます。 4. **知覚とデータ** – 人間の明るさ知覚は非線形です。したがって、線形 ADC 値はガンマ補正や sRGB カーブを適用しない限り、過度に暗く見えることがあります。 5. **緑色キャストの起源** – 緑色のチントは、センサーの緑光への高感度、ベイヤーピクセルの 2/3 が緑を捕捉している事実、および単純なデモザイキングから生じます。 6. **ホワイトバランスとガンマ** – ホワイトバランスのスケーリングは線形データに対してガンマ補正より先に適用する必要があります。各チャネルに別々にガンマカーブを適用すると、ハイライトが減色(例えば星が黄色くなる)する可能性があります。 7. **最終画像の現在状態** – 著者の最終画像は未加工であり、カラーキャリブレーションも残留ノイズや完璧なホワイトバランスもありません。これにより、カメラ処理がすでにかなりの数学を行っていることが示されています。 8. **写真家とメーカーへの影響** – これらのステップを理解することで、写真家は RAW ファイルをより効果的に処理でき、メーカーはデフォルト設定、デモザイキングアルゴリズム、およびガンマ処理を改善する潜在的な領域を特定できます。 --- このバージョンは主要なポイントすべてを保持し、不必要な推測を避け、メインメッセージを明確に保ちつつ曖昧な表現を排除しています。

2025/12/29 5:14

ミトロリ―(Mockito)のメンテナとして10年後に退任します

## Japanese Translation: 著者は、10年間にわたるMockitoの長期メンテナとしての任務を辞める意向を表明し、2026年3月に引き継ぎが予定されていると述べています。彼は主に三つの懸念点を挙げています: 1. **JVMエージェントへの急激な移行**(Mockito 5で実装された変更は協議もなく、代替案も提示されず)によるエネルギー消耗。 2. **Kotlinとの非互換性**—特にsuspend関数に関連する問題が重複APIやスパゲッティコードを生み出し、Mockitoのアーキテクチャと整合しない点。 3. 彼自身の興味がServoなど他のオープンソースプロジェクトへ移りつつあること。 著者は、志願者が十分なサポートなしに圧力を感じる中で、Mockitoのメンテナンスが楽しみよりも「やらなければならない仕事」になっていると指摘しています。プロジェクトは新しいメンテナーによる方が最善だと考えており、他者にオープンソースの役割へ参加するよう奨励し、その名誉と特権を強調しています。 --- **(元文を保持したい場合)** > 著者は10年後にMockitoのメンテナとして退任すると発表し、2026年3月に移行が予定されていると述べています。彼はこの決定を、最近の変更—特にMockito 5でのJVMエージェントへの切替えや人気が高まるKotlinとの統合困難—による疲労感の増大に結び付けています。これらの変化は複雑さを増し、APIの重複を生じさせ、メンテナンスを楽しい活動よりも「やらなければならない仕事」に感じさせました。また、彼自身の関心がServoなど他のプロジェクトへ移っていることも述べており、これがハンドオーバーへの動機付けとなっています。著者は新たな志願者にメンテナシップを担ってもらうことで、Mockitoが新しいリーダーシップの下で進化し続けることを促しています。この変更は、新しい視点をもたらし、Kotlin統合問題を解決する可能性があり、オープンソースコミュニティにおける堅牢な志願者支援の必要性を強調すると期待されています。

2025/12/29 6:41

## Unity の Mono に関する問題 **C# コードが想定よりも遅く動作する理由** --- ### 1. 背景 - Unity は C# スクリプトの実行に **Mono**(または IL2CPP)をランタイムとして使用しています。 - 開発者は、ネイティブ C++ コードと比べてパフォーマンスが低下することに気づくことが多いです。 ### 2. 遅延の一般的な原因 | カテゴリ | よくある問題 | 発生理由 | |----------|--------------|----------| | **ガベージコレクション (GC)** | ゲームプレイ中に頻繁にメモリ確保 | GC の停止がゲームスレッドを止め、フレームレートの乱れを引き起こします。 | | **Boxing/Unboxing** | 値型をオブジェクトへキャスト | 一時的なヒープオブジェクトが生成され、収集対象になります。 | | **リフレクション** | 実行時に `System.Reflection` を使用 | 動的型解決のため、リフレクションは遅いです。 | | **文字列連結** | ループ内で `+` を繰り返し使用 | 多くの中間文字列が生成され、GC の負荷が増大します。 | | **大型 MonoBehaviour** | 一つのスクリプトに多くの責務を持たせる | フレームごとの作業量が増え、キャッシュミスにつながります。 | ### 3. プロファイリングのヒント 1. **Unity Profiler → CPU Usage を開く** - 「Managed」と「Native」の時間差に注目します。 2. **Memory タブを使用** - ゲームプレイ中に急増する割り当てを探ります。 3. **Profiler: Mono Runtime を有効化** - GC、JIT、メソッド呼び出しの詳細が確認できます。 ### 4. 最適化戦略 - **割り当てを最小限に抑える** - オブジェクトを再利用;頻繁に使うインスタンスはプールします。 - ループ内で文字列を作る場合は `StringBuilder` を使用。 - **Boxing を避ける** - 値型はそのまま保持し、`object` へのキャストは控えます。 - **リフレクション結果をキャッシュ** - 最初の検索後に `MethodInfo` や `FieldInfo` を保存します。 - **MonoBehaviour の複雑さを減らす** - 大きなスクリプトは機能ごとに分割し、専念型コンポーネントへ移行。 - **ホットパスにはネイティブプラグインを使用** - 性能重視のコードは C++ プラグインへオフロードします。 ### 5. ベストプラクティス | 実践 | 実装例 | |------|--------| | **早期にプロファイル** | 開発初期から頻繁にプロファイラを走らせます。 | | **クリーンコードを書く** | 可読性重視だが、割り当てには注意します。 | | **Update ループは軽量化** | 重いロジックは Coroutine やバックグラウンドスレッドへ移行可能です。 | ### 6. リソース - Unity Manual: [Performance Profiling](https://docs.unity3d.com/Manual/Profiler.html) - Unity Blog: 「Reducing GC Allocations in Unity」 - Stack Overflow の Mono vs. IL2CPP パフォーマンスに関する議論 --- **結論:** Mono がメモリと実行を管理する仕組みを理解し、効果的にプロファイルしてターゲット最適化を施すことで、Unity における C# スクリプトのランタイムオーバーヘッドを大幅に削減できます。

## Japanese Translation: Unity の現在の Mono ランタイムは、モダンな .NET と比べて約 2–3 倍遅く、同一ハードウェア上で実行するとベンチマークで最大 ~15 倍の速度向上が確認されています。このギャップは、Mono の JIT コンパイラが高度に最適化されていないアセンブリを生成する一方、.NET の JIT がスカラー化やレジスタベース演算などの高度な最適化を行うためです。 2006 年に導入以来、Mono は Unity のデフォルト C# ランタイムでした。Microsoft は 2014 年に .NET Core をオープンソース化し、2016 年 6 月にクロスプラットフォームサポートをリリースしました。2018 年、Unity はエンジンを Microsoft の CoreCLR(.NET Core 背後の CLR)へ移植する計画を発表し、パフォーマンス向上とプラットフォーム間の差異を縮小するとともに、一部ワークロードで 2–5 倍のブーストが期待できるとしました。 主なベンチマーク結果は次の通りです: - Mono ベースのエディタ起動時間:約 100 秒 - 同等の .NET 単体テスト:約 38 秒 - リリースモードスタンドアロンビルド:Mono 約 30 秒、.NET 約 12 秒 - 4k×4k マップ生成:.NET 約 3 秒 - int.MaxValue イテレーションの緊密ループテスト:Mono 約 11.5 秒、.NET 約 0.75 秒(約 15 倍遅い) - デバッグモード同じループ:約 67 秒(追加チェックが原因) モダンな .NET の JIT は小さな値型をスカラー化し、不変計算をループ外に持ち出し、レジスタベース演算を使用するなど、Mono が適用できない最適化を実行します。CoreCLR は Span<T>、ハードウェアイントリンシック、SIMD パスといった高度な機能も公開し、特定のコード(例:シンプルノイズ)でパフォーマンスが倍増する可能性があります。 Unity の Burst コンパイラは選択された C# メソッドを LLVM 生成ネイティブアセンブリに変換できますが、適用範囲が限定されています。CoreCLR の JIT はこれらの制約なしで同等かそれ以上の性能を提供できる可能性があります。 CoreCLR への移行は Unity 6.x を対象としており、本番稼働準備は 2026 年またはそれ以降になる予定です。採用されれば、開発者は高速なエディタ起動、短縮されたビルド時間、および Just‑In‑Time コンパイルを許可するプラットフォーム上でより効率的なランタイムコードを体験できます。ただし、Ahead‑Of‑Time (AOT) コンパイルが必要なデバイスは引き続き IL2CPP に依存するため、性能向上はターゲットプラットフォームによって異なる可能性があります。

**Show HN:** 「LoongArch ユーザースペースエミュレーター」 | そっか~ニュース