
2026/04/07 3:24
**AI が OldNYC に 10,000 枚の新写真を追加** - AI 主導の画像復元・強化 - 約 10,000 枚の高解像度写真を追加 - 歴史的正確性は保ちつつ、鮮明さを向上 - ニューヨーク市の視覚アーカイブへの公開アクセスを拡大
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
OldNYCの写真ビューアは現在49 k枚の画像をホストしており、2016年の約39 k枚から増加しています。また、過去2年間で約10 k枚の歴史的写真が追加されました。GPT‑4oは画像説明から位置情報を抽出し、さらに約6 k枚の正確に配置された写真を追加しました。現在、約87 %の写真には利用可能な位置データがあり、約96 %は正しくマッピングされています。このプロジェクトではGoogle Maps GeocodingをOpenStreetMapとNYPLの歴史的街路データセットに置き換え、1930年代ブロンクスのFulton St–Nassau Stなどの誤ジオコードされた交差点を修正しました。OCRはGPT‑4o‑miniで再構築され、テキストカバレッジが25 kから32 k画像へと増加し、GPTは古いOcropusに対して約75 %の時間で優れた性能を示し、エラー率をほぼ2 %に抑えています。高解像度のソース画像と事前クロッピングは最良のOCR結果を得るために不可欠です。マッピングスタックはGoogle MapsからOpenStreetMapベクタタイル&MapLibreへ移行し、推定月額コストを約35ドルから無料に削減するとともに、より高速なレンダリング、滑らかなズーム、およびカスタムスタイリング(例:1930年代の非現実的機能の除去)を可能にしました。将来計画には、人と建物のAI抽出、他コレクションとの統合、OpenHistoricalMapの完全な街路グリッドへの貢献、および同様のサイト構築を行う開発者への呼びかけが含まれます。2026年にメールリストがリセットされ、新規購読が必要になります。これらのアップグレードは、ユーザーにより正確で豊富に注釈された歴史的イメージを提供し、開発者は無料かつオープンソーススタックを活用できるようにします。また、機関はコストを削減しデータ品質を向上させることで、広範なデジタル遺産コミュニティに恩恵をもたらすことができます。
本文
過去2年間、私はこっそりとOldNYCフォトビューアの主要部分を再構築してきました。結果として、地図上に10,000枚以上の歴史的写真が追加され、位置情報がより正確になり、最新のAIツールとOpenStreetMapエコシステムのおかげで、サイトは運用コストも低減し、管理もしやすくなりました。
2016年時点ではOldNYCに約39,000枚の写真がありましたが、現在は49,000枚です。これらの変更のほとんどは2024年に行われましたが、実際にこの記事を書いているのは2026年です(別プロジェクトに気を取られていました)。もしOldNYCをしばらく訪れていないのであれば、一度見てみてください。もしかすると、見逃していた写真があるかもしれません。
3つの最大改善点
- より正確なジオロケーション
- OCR(文字認識)の劇的向上
- オープンマッピングスタックへの切替
OpenAI と OpenStreetMap を使ったより良いジオロケーション
OldNYC は「Broad Street, south from Wall Street」のような歴史的記述を地理座標に変換することで機能します。元々は、タイトルから交差点情報を抽出し、Google Maps Geocoding API に送信していました。この方法は通りがまだ存在する場合にはうまくいきましたが、多くの歴史的交差点は現在は存在しません。
2024年に行った2つの変更で、このプロセスは大幅に改善されました。
GPT を使った難しいジオコード
一部の画像では、場所情報が記述のみで提供されています。私は現在、OpenAI API(gpt‑4o)を利用してそのテキストから位置情報を抽出しています。
例
Public Schools – Brooklyn – P.S. 143, 1930 Havemeyer Street, west side, from North 6th to North 7th Streets, showing Public School No. 143. The view is north from North 6th Street.
学校自体はもう存在しないため、タイトルだけではジオコードできません。記述から GPT は次の情報を抽出しました。
- Havemeyer St & North 6th St
- Havemeyer St & North 7th St
- Public School No. 143
OpenStreetMap には両交差点が存在するため、OldNYC は画像を最初の交差点に配置します。GPT は「North 6th」が「North 6th Street」を意味することを理解し、「west side」のような無関係なフレーズを除外して関連交差点のみを抽出します。従来のコンピュータはこの種のタスクで苦労しましたが、最新 AI モデルはこれを完璧にこなします。GPT を使うことで約6,000枚の追加写真を位置決めできました。現在、OldNYC は利用可能な位置情報を持つ写真の約87%を正しくジオコードし、マップ上で表示される画像の約96%が正しい場所に配置されています。
OSM を使ったジオコーディング
また、Google Maps のジオコーダーを OpenStreetMap と歴史的通りデータセットに置き換えました。
例
Brooklyn: Fulton Street – Nassau Street
1930年代にはブルックリンで交差していましたが、現在はそうではありません。Google は同名の街がマンハッタンに存在するため、その場所を返します。OldNYC では NYPL の歴史的通りプロジェクトからデータを取り込み、元々ブルックリンにあった交差点情報を使用しています。その結果、画像は正しい位置に表示されます。
AI による OCR(文字認識)
ほとんどの OldNYC 写真には NYPL カタログから取得した説明が付いていますが、NYPL サイト上ではそれらはタイプライターでスキャンされた画像であり、テキストとして扱えません。2015 年に OldNYC を立ち上げたとき、この画像を文字列へ変換する(OCR)ことが最も難しい技術課題でした。私は Ocropus を使った独自パイプラインを構築し、文字精度 99% 超を達成しました。しかし、誤りは読み取り時に顕著でした。
それを改善するために「タイプミス修正」機能を追加し、ユーザーが転写結果を訂正できるようにしました。これがニューヨーカーたちの集団的 OCD を刺激し、数千件もの編集が行われました。
2024 年には OCR システムを gpt‑4o-mini で再構築しました。
成果
- テキストカバレッジは 25,000 枚から 32,000 枚へ増加
- 両システムを使用した画像では、GPT が約 75 % のケースで優れており、明らかに劣るのはわずか ~2 %
例えば、古い OCR は珍しいフォントのため完全なガビリッシュを生成していましたが、GPT はそれを完璧に転写しました。
学び
- GPT は高解像度ソース画像で最も効果的であり、NYPL サイト上の低解像度画像ではあまり良く機能しない
- 2015 年に書いたテキスト検出コードは、OCR 前に画像を切り抜く際に依然として役立つ
- タイトルなどのコンテキスト情報を与えると GPT は「幻覚」を起こすことがあるため、最良結果は画像だけを入力した場合で得られた
総じて、OpenAI のようなツールのおかげで 2024 年では OCR が 2015 年よりも格段に簡単になりました。
Google Maps から OpenStreetMap への移行
OldNYC を立ち上げた当初は、ウェブマッピングのデフォルトとして Google Maps が無料で利用できるため選択されました。しかし時間とともに Google の価格モデルが変わり、2024 年末には $200/月 の無料クレジットを個別 API ごとの割引枠へ置き換えました。この新システム下では、Free だったものは実質 $35/月 になる計算です。
趣味プロジェクトとして Google を継続的に支払うよりも、OpenStreetMap のベクタタイルと MapLibre に移行しました。
メリット
- レンダリング速度が速い
- ズーム操作が滑らか
- マップスタイリングを完全に制御できる
例としては、1930 年代に存在しなかった高速道路やトンネルなどのアナクロニズムを除外することも可能です。
今後の展望
まだ改善余地が多くあります。
- AI が画像から人物・建物・屋内/屋外シーンなど追加情報を抽出できるように
- 他コレクションからの写真を組み込む
- OpenHistoricalMap に貢献し、NYC の完全な歴史的通りグリッドが揃えば写真の位置決めが劇的に簡単になる可能性がある
- 他都市向けに OldNYC スタイルのサイト構築を開発者が容易に行えるようにする
興味があればぜひご連絡ください。
📪 OldNYC のアップデート情報を受け取りたい方は、新しいメールリストにご登録ください!2026 年以前に購読した方は再度登録が必要です。申し訳ありません、MailChimp が古いリストを削除してしまいました 😡