タグ: Chatbot | ja | 25/25

xAIはGrok3のベンチマークで嘘をついたか

xAIのGrok3ベンチマーク提示を巡る論争はAI評価の透明性と標準化の必要性を浮き彫りにし単一スコアへの依存に警鐘を鳴らす

2025-02-23

中国AIチャットボット市場でByteDanceがAlibabaとBaiduを圧倒

中国のAIチャットボット市場では、ByteDanceのDoubaoが急速に台頭し、AlibabaやBaiduなどの既存プレイヤーを凌駕しています。この記事では、Doubaoの成功要因、競合他社の課題、そして中国におけるAIの将来について詳しく解説します。

2025-01-22

# LLM # Chatbot # Doubao

中国AIチャットボット市場でByteDanceがAlibabaとBaiduを圧倒

スタンフォード大学とUCバークレーの研究 ChatGPTの性能低下

スタンフォード大学とUCバークレーの研究者による論文「ChatGPT Behavior Over Time」では、GPT-3.5とGPT-4の性能が3ヶ月間で大きく変動したことが示されました。数学問題解決、コード生成、知識集約型質問応答など7つのタスクで評価が行われ、特にGPT-4の素数判定精度が大幅に低下。命令遵守能力も低下し、回答抽出やコンテンツフィルタリングの精度が著しく低下しました。この研究は、ChatGPTの性能変動を理解し、安全性とコンテンツの信頼性を確保するために重要です。

2025-01-17

# Chatbot # GPT # OpenAI

スタンフォード大学とUCバークレーの研究 ChatGPTの性能低下

Tag: Chatbot

xAIはGrok3のベンチマークで嘘をついたか

中国AIチャットボット市場でByteDanceがAlibabaとBaiduを圧倒

スタンフォード大学とUCバークレーの研究 ChatGPTの性能低下