**Qwen 3.5 ファインチューニングガイド – Unsloth ドキュメント**

- **前提条件**
  - Python 3.10以上  
  - PyTorch 2.x(GPUで学習する場合はCUDA)  
  - `unsloth` パッケージ(`pip install unsloth`)

- **データセットの準備**
  1. 各行を個別の「instruction–response」ペアとして持つ JSONL ファイルを作成します。  
     ```json
     {"instruction":"Translate to French","input":"Hello, world!","output":"Bonjour le monde!"}
     ```
  2. データを学習用と検証用に分割(例:`train.jsonl`, `valid.jsonl`)。

- **モデルのロード**
  ```python
  from unsloth import FastLanguageModel

  model_name = "Qwen/Qwen3.5"
  model, tokenizer = FastLanguageModel.from_pretrained(
      model_name,
      load_in_4bit=True,
      device_map="auto",
  )
  ```

- **トレーニング設定**
  ```python
  from unsloth import get_peft_config

  peft_cfg = get_peft_config(
      target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
      lora_r=8,
      lora_alpha=32,
      lora_dropout=0.05,
  )
  ```

- **ファインチューニングループ**
  ```python
  from unsloth import FastLanguageModel

  trainer = FastLanguageModel(
      model=model,
      tokenizer=tokenizer,
      peft_config=peft_cfg,
      max_seq_length=2048,
  )

  trainer.train(
      train_file="train.jsonl",
      eval_file="valid.jsonl",
      learning_rate=1e-4,
      num_epochs=3,
      batch_size=2,
  )
  ```

- **ファインチューニング済みモデルの保存と読み込み**
  ```python
  trainer.save_pretrained("qwen3.5-finetuned")
  # 後でロードする場合:
  model, tokenizer = FastLanguageModel.from_pretrained(
      "qwen3.5-finetuned",
      device_map="auto",
  )
  ```

- **推論例**
  ```python
  prompt = "Translate to Spanish: Good morning."
  inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
  output_ids = model.generate(**inputs, max_new_tokens=50)
  print(tokenizer.decode(output_ids[0], skip_special_tokens=True))
  ```

- **ヒントとベストプラクティス**
  - メモリ使用量を削減するために混合精度(`load_in_4bit`)を利用。  
  - GPU の稼働率を監視し、OOM が発生したら `batch_size` を調整。  
  - 過学習を早期検知するために頻繁に検証を実施。  

---

2026/03/04 21:04

**Qwen 3.5 ファインチューニングガイド – Unsloth ドキュメント** - **前提条件** - Python 3.10以上 - PyTorch 2.x(GPUで学習する場合はCUDA) - `unsloth` パッケージ(`pip install unsloth`) - **データセットの準備** 1. 各行を個別の「instruction–response」ペアとして持つ JSONL ファイルを作成します。 ```json {"instruction":"Translate to French","input":"Hello, world!","output":"Bonjour le monde!"} ``` 2. データを学習用と検証用に分割(例:`train.jsonl`, `valid.jsonl`)。 - **モデルのロード** ```python from unsloth import FastLanguageModel model_name = "Qwen/Qwen3.5" model, tokenizer = FastLanguageModel.from_pretrained( model_name, load_in_4bit=True, device_map="auto", ) ``` - **トレーニング設定** ```python from unsloth import get_peft_config peft_cfg = get_peft_config( target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], lora_r=8, lora_alpha=32, lora_dropout=0.05, ) ``` - **ファインチューニングループ** ```python from unsloth import FastLanguageModel trainer = FastLanguageModel( model=model, tokenizer=tokenizer, peft_config=peft_cfg, max_seq_length=2048, ) trainer.train( train_file="train.jsonl", eval_file="valid.jsonl", learning_rate=1e-4, num_epochs=3, batch_size=2, ) ``` - **ファインチューニング済みモデルの保存と読み込み** ```python trainer.save_pretrained("qwen3.5-finetuned") # 後でロードする場合: model, tokenizer = FastLanguageModel.from_pretrained( "qwen3.5-finetuned", device_map="auto", ) ``` - **推論例** ```python prompt = "Translate to Spanish: Good morning." inputs = tokenizer(prompt, return_tensors="pt").to("cuda") output_ids = model.generate(**inputs, max_new_tokens=50) print(tokenizer.decode(output_ids[0], skip_special_tokens=True)) ``` - **ヒントとベストプラクティス** - メモリ使用量を削減するために混合精度(`load_in_4bit`)を利用。 - GPU の稼働率を監視し、OOM が発生したら `batch_size` を調整。 - 過学習を早期検知するために頻繁に検証を実施。 ---

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

要約

Qwen 3.5モデル(0.8B–122B)は、UnslothフレームワークとLoRAをbf16精度でローカルにファインチューニングできるようになり、ビジョンおよび多言語テキストタスクの両方が可能です。VRAM使用量は管理しやすく保たれます。

モデルサイズ別 VRAM 要件:

  • 0.8B = 3 GB
  • 2B = 5 GB
  • 4B = 10 GB
  • 9B = 22 GB
  • 27B = 56 GB
  • 35B‑A3B = 74 GB
  • 122B‑A10B = 256 GB

完全なファインチューニングには約4倍のVRAMが必要となるため、LoRAははるかに実用的です。

Unslothはトレーニング速度を約1.5倍に向上させ、古いFA2メソッドと比べてVRAM使用量を約50 %削減します。
Qwen 3.5は201言語をサポートしており、多言語ファインチューニングに最適です。

エクスポートオプションには GGUF(llama.cpp / Ollama / LM Studio用)と vLLM があり、UnslothはGGUFを直接Hugging Faceへアップロードできます。
Transformers v5 を使用してください—古いバージョンは互換性がありません。

MoEモデル(35B‑A3B, 122B‑A10B, 397B‑A17B)では bf16でファインチューニングし、量子化の問題を避けるため4ビット QLoRA は使用しないでください。
マルチGPUトレーニングは

device_map="balanced"
または提供されているマルチGPUガイド経由でサポートされます。MoEモデルをロードした後に LoRA アダプタを付加できます。

ビジョンファインチューニングは多モーダル Qwen 3.5 モデルで有効です。 torchvisionpillow をインストールし、Transformers を最新の状態に保ちます。その後、視覚レイヤー、言語レイヤー、または注意/MLP レイヤー(デフォルトではすべてオン)を選択的にファインチューニングできます。

OOM(メモリ不足)の対策ヒント

  • per_device_train_batch_size
    を 1 に減らす
  • あるいは
    max_seq_length
    を低く設定する

vLLM 0.16.0 は Qwen 3.5 をサポートしていません。≥ 0.17を待つか、ナイトリービルドを使用してください。

この簡素化されたアプローチにより、開発者は大規模な多言語またはマルチモーダルモデルを低メモリで効率的にカスタムビジョンや言語アプリケーションへ適応できるようになります。

本文

Qwen 3.5 – ローカル実行ガイド


ファインチューニング概要

  • モデルファミリー: 0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B
  • フレームワーク: Unsloth(ビジョン・テキスト両方のファインチューニングに対応)
  • 速度 / VRAM: FA2セットアップより1.5 倍速で約50 %少ないVRAMを使用

bf16 LoRA 用 VRAM 要件

モデルVRAM
0.8B3 GB
2B5 GB
4B10 GB
9B22 GB
27B56 GB
  • 35B‑A3B – 74 GB VRAMで動作
  • 122B‑A10B – 256 GB VRAMで動作(
    device_map="balanced"
    を使ってマルチGPU)

訓練のヒント

ヒント詳細
推論保持推論例と直接回答を混ぜ、推論率≥75 %に保つ。
完全ファインチューニング (FFT)約4倍多くVRAMを消費。
多言語対応201 言語が利用可能。
エクスポート形式GGUF(llama.cpp/Ollama/LM Studio)、vLLM、または Hugging Face Hub。
Transformers バージョンv5 を使用;旧バージョンでは失敗。Unsloth はデフォルトで v5(Colab 以外)。
カーネルコンパイルMamba Triton カーネルは T4 GPU で長時間かかる場合がある。
QLoRA (4‑bit)量子化問題のため Qwen 3.5 には推奨されない。
MoE ファインチューニングbf16 設定を好む;QLoRA 4-bit は避けるべき。
ビジョン依存関係
torchvision
pillow
をインストール。
OOM 対策
per_device_train_batch_size
または
max_seq_length
を減らす。

クイックスタート(テキストのみファインチューニング)

import os
import torch
from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
    model_name="unsloth/Qwen3.5-35B-A3B",
    max_seq_length=2048,
    load_in_4bit=False,      # MoE QLoRA は推奨されない
    load_in_16bit=True,      # bf16/16‑bit LoRA
    full_finetuning=False,
)

# 保存 / エクスポート
model.save_pretrained_gguf("directory", tokenizer, quantization_method="q4_k_m")
model.save_pretrained_gguf("directory", tokenizer, quantization_method="q8_0")
model.save_pretrained_gguf("directory", tokenizer, quantization_method="f16")

# Hugging Face Hub へ
model.push_to_hub_gguf("hf_username/directory", tokenizer,
                       quantization_method="q4_k_m")
model.push_to_hub_gguf("hf_username/directory", tokenizer,
                       quantization_method="q8_0")

# LoRA アダプタを統合(必要なら)
model.save_pretrained_merged("finetuned_model", tokenizer,
                             save_method="merged_16bit")

# 統合モデルを Hub へアップロード
model.push_to_hub_merged("hf/model", tokenizer,
                         save_method="merged_16bit", token="")

ビジョンファインチューニング

  • Qwen 3.5 のノートブック(マルチモーダルモデル)を利用。
  • ビジョン層、言語層、または注意力/MLP 層のみを選択的にファインチューニング可能(デフォルトではすべて有効)。

エクスポートとデプロイ

ランタイムエクスポート方法
llama.cpp / Ollama / LM Studio
save_pretrained_gguf
で必要な量子化を指定
vLLM
quantization_method="f16"
または
"q8_0"
を使用。注意:vLLM 0.16.0 は Qwen 3.5 に非対応;0.17.0または nightly リリース待ち。
Hugging Face Hub
push_to_hub_merged
(統合版)または
push_to_hub_gguf
(GGUF)。

追加メモ

  • マルチGPU 訓練:
    device_map="balanced"
    を付けるか、マルチGPU ガイドに従う。
  • ビジョン/テキストのみファインチューニング切替: 設定フラグで訓練対象を指定可能。
  • 一般的なランタイム問題: チャットテンプレートや EOS トークンが誤っているときは、訓練時と同じ設定を使用するように確認。

最終更新: 44 分前。

同じ日のほかのニュース

一覧に戻る →

2026/03/04 23:16

マックブック・ネオ

## Japanese Translation: *いくつかの重要な詳細が省略され、いくつかの推論が導入されているため、以下に改善された要約を示します。* --- ## 改善された要約 Appleは**MacBook Neo**を発表しました。これは2026年3月4日に公開された、これまでで最も低価格なMacBookです。デバイスの価格は米国では**$599**(教育機関向けは$499)で、3月11日(水)に出荷されます。3月4日に予約注文が開始されます。Neoは**ブリッシュ、インディゴ、シルバー、シトラス**の四色で提供され、apple.com/store、Apple Storeアプリ(30か国/地域)、およびApple認定販売店を通じて購入できます。 Neoの重量は**2.7 lb**で、アルミニウムエンクロージャーから作られ、**60 %がリサイクル素材**です(アルミニウムの90 %、コバルト電池の100 %が再利用されています)。13インチのLiquid Retinaディスプレイは**2408×1506**解像度で、**500 nits**の輝度を持ち、**10億色**に対応し、反射防止コーティングがあります。 内部には新しい**Apple A18 Pro**チップ(6コアCPU、5コアGPU、16コアNeural Engine)が搭載されています。Appleは、Intel Core Ultra 5を搭載したPCと比べて日常タスクが最大**50 %高速化**し、オンデバイスAIワークロードが最大**3倍速く**なると主張しています。このラップトップは**ファンレス**で静かに動作し、1回の充電で**最大16時間**のバッテリー寿命を提供します。 接続性にはUSB‑Cポート2つ(左側がUSB 3、右側がUSB 2)があり、充電と外部ディスプレイをサポートしています。ヘッドフォンジャック、Wi‑Fi 6E、およびBluetooth 6も備えています。ハードウェア機能としては、Apple Magic Keyboard(Touch ID付き)、大きなマルチタッチトラックパッド、1080p FaceTime HDカメラ、デュアルビームフォーミングマイクロフォン、デュアルサイドファイリングスピーカーがあり、Spatial Audio/Dolby Atmosをサポートします。 MacBookは**macOS Tahoe**で動作し、Safari、Photos、Messagesなどの標準アプリと、Writing ToolsやLive TranslationなどのApple Intelligence機能を含むパッケージです。これらは業界最高レベルのプライバシー保護に支えられています。 追加サービスには**Apple Trade In**クレジット、**AppleCare+**または**AppleCare One**保護プラン、**Personal Setupセッション**、およびApple Cardを利用する米国顧客向けの0 % APRと3 % Daily Cashバックがある**Apple Card Monthly Installments**があります。

2026/03/05 5:30

「それが何を指しているか」によりますが、一般的に多くの共通した活動は相当量のエネルギーを消費します。 | 活動 | 一般的なエネルギー使用量 | |------|---------------------------| | **電気自動車** | 100 kmあたり10–20 kWh(約35–70 MJ)。30日間で約3,000 km走行すると、約300 kWhが消費されます。 | | **航空輸送** | 人員1人あたり距離1 kmで約2–5 kg CO₂を排出し、典型的な長距離フライトでは約200–500 kWh相当のエネルギーが使われます。 | | **家庭用電気暖房** | 1 m²あたりの床面積で、冬季は1日あたり約10 kWh必要です。大きな住宅になるとさらに多く消費します。 | | **データセンター** | 世界全体のIT産業が年間で約200–300 TWh(総電力使用量のおよそ2%)を消費しています。 | 特定の機器やサービスについて言及されている場合は、正確な数値は異なります。しかし、燃焼エンジン・電動モーター・大規模コンピューティングなど、大量のエネルギーを移動させる活動であれば、必ずしも相当量の電力が使用され、全体の消費に寄与します。

## Japanese Translation: > 文章は、日常のデバイスや活動が電力をどのように消費するかを説明し、一般的な家電製品・電子機器・交通手段の典型的なワット時(Wh)値を提示しています。電力使用量は「パワー(W) × 時間(h)」で計算されることが示されており、各アイテムの平均消費電力とそれに伴う Wh/時間または Wh/サイクルの具体例が挙げられています。 > > 比較対象は以下の通りです: > * 電球 – 白熱灯 25–100 W(標準値60 W)対 LED 約10 W;1時間で白熱灯は60 Wh、LEDは10 Whを消費します。 > * 携帯電話充電にはフルチャージあたり約20 Whが必要です(15–20 %の損失)。 > * テレビ消費 – 中効率 40–50″ LED 約60 W、最新大型 55–60″ 4K 約90 W。 > * MacBook ノートパソコン平均電力約20 W、デスクトップ平均約50 W(ゲーミングPCは数百 Wに達することも)。 > * ゲーム機 – Xbox Series S 約70 W、Xbox Series X 遊び中で約150 W。 > * ストリーミングサービスは1時間あたり約0.2 Whを追加;Wi‑Fi ルーターの継続使用は約15 W。 > * ChatGPT GPT‑4o の中央値クエリ消費量は約0.3 Wh、Kindle e‑reader は1時間に1 Wh未満。 > * キッチン家電 – ケトル 1500–2000 W(3 分沸騰で約100 Wh)、電子レンジ 1000 W ×5 分 ≈83 Wh、オーブン 2500 W の稼働率55 %。 > * 洗濯&食器洗い – 洗濯機は1回のロードあたり約800 Wh、乾燥機 2000–4500 Wh/サイクル、食器洗い機 約1250 Wh/サイクル、アイロン 10 分で417 Wh。 > * 暖房 – 電気シャワー 9500 W ×10 分 ≈1583 Wh;COP 3 のヒートポンプ式シャワーは約3000 Wh/hを使用;ガス式シャワー相当は10 分で約1759 Wh。 > * ドライブ – e‑bike 15 Wh/mi、e‑スクーター 25 Wh/mi、電動バイク 150 Wh/mi、ガソリンバイク ≈530 Wh/mi;電気自動車 約300 Wh/mi 対 ガソリン車約1000 Wh/mi。 > > このデータは、技術や活動によってエネルギー消費がどのように変化するかを示しています。LED 照明や高 COP ヒートポンプなどより効率的な機器はタスクあたりの Wh を削減し、一方でゲーム機や AI サービスの利用増加は総需要を押し上げる可能性があります。これらの洞察は、消費者が習慣を調整したり低電力機器へアップグレードする手助けとなり、メーカーに効率向上を促す指針となり、ユーティリティーは負荷シフトを予測しやすくなり、政策立案者は高消費セクターの削減策を検討する際の情報源となります。

2026/03/04 20:43

「単純さだけを理由に昇進する者は存在しません。」

## Japanese Translation: --- ## Summary エンジニアリングチームは、複雑なシステムが昇進パッケージや面接パネルで印象的に見えるため、過剰設計を報奨する傾向があります。短く迅速に配備できる単純なソリューションは、キャリアの進展議論では目立たず、報酬が少なくなることが多いです。面接官や設計レビューは、追加サービス、キュー、シャーディング、抽象化を求めることで、複雑さをスケーラビリティの代理指標として扱います。この「将来性確保」マインドセットは、不要な層を生み出し、コードを理解しにくく保守しづらくしてしまい、見た目の洗練感が実際には無意味になる原因となります。 根本的な問題は、影響力を機能規模と等価化する昇進基準です。これに対抗するために、エンジニアは意思決定プロセスを文書化すべきです(「X のアプローチを評価し、現在の要件に合わせて Y を選択した」など)ので、ミニマリズムがレビューで認識されやすくなります。リーダーはインセンティブ構造を調整する必要があります:例えば「私たちが配備できる最も単純なバージョンは何か?」と質問し、昇進議論の際に不要な複雑さを挑戦します。公的認知は、大規模プロジェクトと同等にコード削除やミニマリズムを報奨することで、最適化インセンティブを転換すべきです。 チームが単純さの価値付与努力にもかかわらず複雑なシステム構築者を昇進させ続ける場合、それは文化的不一致を示し、エンジニアが派手なアーキテクチャよりも健全な判断を重視する組織へ流れる可能性があります。インセンティブをシンプルで保守しやすい解決策に向けることで、昇進と実際の影響力を一致させ、技術的負債を減らし、ユーザーと企業双方に対して製品の信頼性を向上させます。

**Qwen 3.5 ファインチューニングガイド – Unsloth ドキュメント** - **前提条件** - Python 3.10以上 - PyTorch 2.x(GPUで学習する場合はCUDA) - `unsloth` パッケージ(`pip install unsloth`) - **データセットの準備** 1. 各行を個別の「instruction–response」ペアとして持つ JSONL ファイルを作成します。 ```json {"instruction":"Translate to French","input":"Hello, world!","output":"Bonjour le monde!"} ``` 2. データを学習用と検証用に分割(例:`train.jsonl`, `valid.jsonl`)。 - **モデルのロード** ```python from unsloth import FastLanguageModel model_name = "Qwen/Qwen3.5" model, tokenizer = FastLanguageModel.from_pretrained( model_name, load_in_4bit=True, device_map="auto", ) ``` - **トレーニング設定** ```python from unsloth import get_peft_config peft_cfg = get_peft_config( target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], lora_r=8, lora_alpha=32, lora_dropout=0.05, ) ``` - **ファインチューニングループ** ```python from unsloth import FastLanguageModel trainer = FastLanguageModel( model=model, tokenizer=tokenizer, peft_config=peft_cfg, max_seq_length=2048, ) trainer.train( train_file="train.jsonl", eval_file="valid.jsonl", learning_rate=1e-4, num_epochs=3, batch_size=2, ) ``` - **ファインチューニング済みモデルの保存と読み込み** ```python trainer.save_pretrained("qwen3.5-finetuned") # 後でロードする場合: model, tokenizer = FastLanguageModel.from_pretrained( "qwen3.5-finetuned", device_map="auto", ) ``` - **推論例** ```python prompt = "Translate to Spanish: Good morning." inputs = tokenizer(prompt, return_tensors="pt").to("cuda") output_ids = model.generate(**inputs, max_new_tokens=50) print(tokenizer.decode(output_ids[0], skip_special_tokens=True)) ``` - **ヒントとベストプラクティス** - メモリ使用量を削減するために混合精度(`load_in_4bit`)を利用。 - GPU の稼働率を監視し、OOM が発生したら `batch_size` を調整。 - 過学習を早期検知するために頻繁に検証を実施。 --- | そっか~ニュース