"GPT"検索結果
2026-05-24
02:13

OpenAI GPT-5.6がUIクリーニングのブレークスルーを達成し、最新の社内ビルドでミニマルデザインのアプリを生成する

Beating monitorによると、OpenAIの次世代モデルGPT-5.6(内部コードネーム: iris-alpha)は、UIデザイン生成において大きなブレークスルーを達成し、これまで問題だったフロントエンド出力の品質の低さを解消したという。最新のビルドでは、このモデルは、成熟したグリッドレイアウトと洗練された美観を備えたミニマルなデザインのノートアプリ「Lumen Notes」を生成した—生成AIの出力に典型的な散らかった、型にはまったインターフェースとは対照的だ。 この改善は、フロントエンドのコード生成における制約を克服しようとするOpenAIの重点的な取り組みを示している。GPT-5.6は6月に正式リリースされる見込みで、質の高い、本番で使えるコード生成をめぐって、AnthropicのClaude Artifactsと直接競合する。
09:29

Cloudflareのテストは、Anthropicの神話プレビューが脆弱性を“動作する攻撃”へ連鎖させ得ることを示している

Cloudflareによると、セキュリティモデル「Mythos Preview」は、今日の50以上のコードベースを対象としたテストにおいて、自律的にコードを書き、複数の低リスクな脆弱性を連鎖させて、実行可能な概念実証(proof-of-concept)攻撃を行えることを示した。テストでは、このモデルは孤立したシステム上の欠陥を特定するだけでなく、さらに攻撃チェーンを生成し、脆弱性を引き起こすコードを書いてコンパイルし、エラーメッセージを読み取って自己修正し、攻撃経路全体を正常に突破できるまで反復した。これは、通常は脆弱性の分析で止まり、機能するエクスプロイトを生成しないOpus 4.7やGPT-5.5のような従来モデルと比べて、大きな能力の進歩を示している。
01:29

OpenClawはAndroid向けのリアルタイム音声でv2026.5.18をリリースし、完全なGPT-5対応を追加します

Beatingによると、OpenClawは2026.5.18版を5月18日にリリースし、Androidでリアルタイムの音声会話を可能にするとともに、GPT-5.1、GPT-5.2、GPT-5.3、そしてopenai-codexモデルの完全対応を実現しました。このAndroidアップデートでは、リアルタイムのオーディオ再生付きでマイク入力をストリーミングできるほか、音声セッション中にツール呼び出しを即座に同期するためのツール結果のブリッジング、さらにライブ字幕も利用可能です。今回のリリースでは、開発者が強い型付け(strong typing)サポートでツール拡張を作成できるよう、簡略化されたdefineToolPluginインターフェースも導入されています。
02:37

Google Cloud は、推論コストが GPT-5.5 より 95% 低い Gemini 3.2 Flash Lite モデルを公開します

Beating.AIのモニタリングによると、5月17日時点でGoogle Cloudのモデル選択リストに、gemini-3.2-flash-lite-live-previewという新しいモデルオプションが登場しました。「lite」と「live」の接尾辞は、Googleが超低遅延のリアルタイム・インタラクション向けに最適化した専用バージョンを作成していることを示しています。 Abacus.AIのCEOであるバンドゥ・レディーは以前、Gemini 3.2 FlashがGPT-5.5のコーディングおよび推論能力の92%を達成しつつ、推論コストはGPT-5.5のわずか1/20に抑えていると明らかにしました。また、ほとんどの問い合わせで応答は200ミリ秒未満に返ってくるとのことです。業界の観測者は、コスト最適化されたこの軽量モデルが5月20日のGoogle I/Oで正式に発表されると見込んでいます。
もっと
13:14

OpenAI、GPT-5.5 Codexの劣化の背後にある2つの不具合を修正し、ユーザー利用制限をリセット

Tibo(OpenAIのCodexリード)によると、同チームは過去48時間にコーディング・インテリジェンス・プラットフォーム上でGPT-5.5のパフォーマンス低下を引き起こしていた2つの問題を特定し、修正したとのことです。システムは完全に復旧しました。補償として、OpenAIは今夜、Beatingのモニタリングが報じたとおり、すべての利用制限をリセットします。
CODEX-2.85%
09:16

OpenAI、ChatGPT Pro ユーザー向けのファイナンス管理サービスを開始

PANewsによると、OpenAIは5月16日に、米国のChatGPT Proユーザー向けの個人向けファイナンス管理サービスを発表した。このサービスにより、ユーザーは銀行口座や投資口座をChatGPTに安全に接続し、キャッシュフローダッシュボードを確認し、さらに自分の状況に基づいたAIによる金融ガイダンスを、データを完全に管理しながら受け取れる。OpenAIは、この機能は専門的な金融アドバイスの代替ではないとしたうえで、複雑な個人の資産管理に関する質問をGPT-5.5の推論能力と組み合わせることで、個別に最適化された解決策を提供すると説明した。 同社は、このサービスを段階的にPlusおよびすべてのユーザーへ拡大する計画だ。ユーザーはいつでも口座の接続を解除したり、金融データを削除したりできる。すべての口座情報は、個別化された金融サービスのためにのみ使用され、変更されない。
08:09

DeepSeek のデータ漏えい警報は否定されました。特別なトークンがマルチテナント侵害ではなくモデルの記憶を呼び起こします

Beatingのモニタリングによると、最近のバイラルな主張として、DeepSeekのチャットボックスに のような特殊トークンを入力すると、他のユーザーの会話が露出し得るとされる、P0レベルのマルチテナント分離の失敗だとする内容が拡散しました。実際には、この現象はデータの分離とは無関係です。このようなトークンでトリガーされると、モデルは学習時のフォーマットに従うパターンに入り、自身の記憶とシステムプロンプトに基づいて、創作された対話を生成します。これは他のセッションからリアルタイムで取得するものではありません。これは訓練データ抽出であり、DeepSeek固有のものではなく、すべての大規模言語モデルに共通する脆弱性です。Google DeepMindは2023年に、特殊な入力によってGPTやPaLMから学習データを抽出できることを示す研究を公表しました。ICLR 2025のMagpie論文は、この仕組みを直接活用しています。漏えいした内容に「今日の日付」が含まれているという主張は、マルチテナント分離の失敗を証明するものではありません。DeepSeekはシステムプロンプトに現在の日付を含めて
もっと
19:51

Moonshot AIがKimi WebBridgeのブラウザ拡張機能をリリース、K2.6モデルはSWE-Bench Proで58.6%のスコアを獲得し1位にランクイン

Moonshot AIは、2026年4月にAIエージェント向けのブラウザ拡張機能であるKimi WebBridgeをリリースしました。この拡張機能はChrome DevTools Protocolを使用して完全にローカルマシン上で動作するため、ログインセッションやページの内容はMoonshotのサーバーに一切送信されません。エージェントは、銀行アプリ、メール、社内ツール向けにプライバシーを保護しながら、ウェブサイトを検索したり、クリックしたり、入力したり、データを抽出したりできます。Kimi WebBridgeは公式にClaude Code、Cursor、Codex、Hermesをサポートしており、特定のエージェントに依存しません。基盤となるKimi K2.6モデルはSWE-Bench Proで1位となり、58.6%のスコアを記録しました。GPT-5.4の57.7%やClaude Opus 4.6の53.4%を上回っています。
09:41

Vals AI、Finance Agent v2 のベンチマークを公開。GPT-5.5 は 51.76% を獲得し、すべてのモデルは厳格な採点のもとで 40% 未満にとどまります

Beatingによると、AI評価企業のVals AIは5月14日に第2世代のFinance Agent v2ベンチマークを公開し、927件の専門家レビュー済みの質問を通じて金融分析ワークフローをテストしました。GPT-5.5が51.76%の正確性率で首位となり、続いてClaude Opus 4.7(51.51%)、Claude Sonnet 4.6(51.03%)が僅差で追いました。試験では、モデルに対し、10-Kおよび10-Qの財務諸表が数百ページにわたる中から関連する箇所を独立して特定し、正確な中間の数値を用いて多段階の計算を完了することが求められました。 完全に正しい回答を要求する厳格な採点基準の下では、主要モデルはいずれも正確性率が40%未満に落ち込みました。最も難しいカテゴリである金融モデリングと先例分析では、最高でも23%にとどまりました。その他のモデルでは、Kimi K2.6が44.87%で5位、続いてGLM 5.1(44.79%)、DeepSeek V4(44.08%)でした。前回バージョンでOpus 4.7が64.4%を記録していたのに対し、大きく下落したことは、AI
もっと
ALL-0.43%
06:25

Googleは5月20日のI/OでGemini 3.2 Flashを発表し、GPT-5.5の性能に合わせつつコストは15分の1です

Abacus.AIのCEOビンドゥ・レディによると、Googleは5月20日のI/OカンファレンスでGemini 3.2 Flashを発表する予定で、コーディングおよび推論タスクにおいてGPT-5.5の92%の性能に到達しつつ、推論コストを後者の1/15〜1/20にまで引き下げるという。ほとんどのクエリはレイテンシが200ミリ秒未満になる見込み。レディは、このブレークスルーをGoogleの蒸留(distillation)とスパース性(sparsity)の手法に起因すると説明し、これらによりフロンティアモデルをFlashティアへ圧縮することで、通常モデル最適化で見られるような性能の急落(パフォーマンス・クリフ)を伴わずに済むとしている。
AT3.58%
ON-3.91%
MAY0.09%