OpenAI、医療AI評価ベンチマークHealthBenchを発表
OpenAIが医療分野におけるAIの能力を厳密に評価するための画期的な評価ベンチマーク、HealthBenchを発表。250人以上の医師の知見を基に、5,000件の医療対話と評価基準を組み込んでいます。
OpenAIが医療分野におけるAIの能力を厳密に評価するための画期的な評価ベンチマーク、HealthBenchを発表。250人以上の医師の知見を基に、5,000件の医療対話と評価基準を組み込んでいます。
米国の Rosen 議員らは、中国の DeepSeek など、安全保障上のリスクがある AI 技術の連邦政府契約での使用禁止法案を提出。中国政府とのデータ共有義務が懸念される。
AIチャットボットが普及する中、複数のプラットフォームを統合し、AIモデルの応答を比較できる統合プラットフォームに焦点を当て、その機能と利点を紹介します。
AIの急速な発展は、サイバー犯罪者による悪用を招いています。Check Pointの報告書は、AIが悪用され、サイバー攻撃の規模と効率を高めている現状を警告しています。
AI革命は初期段階にあるが、AIは既にAI開発で重要な役割を果たしている。AnthropicのClaudeが自身のコードを生成している割合は大きい。
AIによる企業運営実験から、AIの可能性と限界を探る。現実の業務環境を模倣し、様々なAIエージェントのタスク遂行能力を評価。課題と将来への示唆。
AI21 Labsは、大規模言語モデル(LLM)のエンタープライズAIソリューションを強化するため、GoogleとNvidiaから3億ドルの資金を調達しました。Jambaモデルを中心に、AI技術の発展を目指します。
DeepSeekが、Lean 4フレームワーク内で形式的定理証明を行うオープンソースLLM、DeepSeek-Prover-V2を発表。AI数学の未来を切り開く。
イーロン・マスクは、Grok AIの能力向上のため、一般から難問を募集。集合知を活用した新しい学習アプローチで、AIの限界を超えることを目指す。
Gemini AIでGoogle Meetの背景を個性的にカスタマイズ!テキストプロンプトでユニークな背景を生成し、バーチャル会議をより魅力的に。