中国系テックメディア36Kr Europeが、“AI科学者”Kosmosのデビューを報道。
References:36Kr Europe
Kosmosは12時間の自律運転で論文約1,500本を読み、4.2万行のコードを実行し、検証可能な引用つき研究レポートを作成したといいます。
素材・神経科学・遺伝学などで少なくとも7件の新規知見を提示し、人間研究者の約半年分の作業に相当する成果を示したとされます。
併せて公開されたarXivプレプリントは、Kosmosの手法と評価を詳述。
記述の約79.4%が独立研究者の査読で正確と判定され、(20サイクル運転で)人間チームの“半年分”の研究時間に匹敵するとの協力研究者の自己申告が示されました。
Kosmosのコア:世界モデル×二つのエージェント
Kosmosは、人間がオープンエンドな研究目標とデータセットを与えると、(1)データ解析エージェントと(2)文献探索エージェントが共有の「世界モデル」を介して情報を統合。
計画→並列実行→仮説更新を繰り返し、200アクション以上の連続思考でも破綻しない“研究記録”としてレポートを吐き出します。
各主張にはコード出力か一次文献のいずれかを必ず紐づけ、追跡可能性(トレーサビリティ)を担保します。
12時間で何をやったのか
- リーディング:
論文約1,500本を自動スクリーニング。 - 実験計算:
平均4.2万行のコード実行(統計・機械学習・可視化)。 - レポート:
根拠紐づけ済みの“研究日誌”形式で成果をまとめる。 - 連続運転:
20サイクルまでのスケーリング試験で、価値ある発見数が線形増加。 - 正確性:
外部評価で79.4%が正確、ただし約2割は要再検討。
代表的成果
- 神経保護(低温環境):
マウス脳の代謝データから、ヌクレオチド再生経路の活性化を指摘。
未公開論文の結論と独立一致したという報告。 - ペロブスカイト太陽電池:
熱アニール工程の湿度が性能劣化の鍵と特定。
さらにDMF蒸気圧と短絡電流の“ほぼ線形な負相関”という簡潔な関係式を提示し、後に人間側の実験で検証。 - コネクトミクス:
複数種の脳配線データから、シナプス数などが対数正規分布に従うと再現し、生成機構の仮説を補強。 - 心筋線維化:
SOD2(スーパーオキシドディスムターゼ)を抗線維化の鍵タンパク候補として提案。
学術的議論の端緒に。
公式プリプリントは7件の代表例を列挙し、このうち3件は未公開/プレプリントの人間研究と独立一致、4件は新規仮説と主張しています(最終的な学術的承認は今後の追試待ち)。
どこが従来のAI研究支援と違うのか
従来のAIは固定パイプラインの高速化が中心でした。
Kosmosは世界モデルにより試行錯誤の“文脈”を保持し、目的整合性を崩さず200手規模で自己計画→実行→自己修正を回せる点が本質的。
結果として、人間側の“仮説発想”と“検証作業”の両方を肩代わりする“共同研究者”に近い振る舞いを示します。
もちろん万能ではない
- 新規データを自律収集しない:
入力は既存データに限定。実験の開始判断やネットからの自動クロールは不可。 - 非構造データに弱い:
顕微鏡画像など生の画像はそのまま扱えず、前処理AIが別途必要。 - 再現性と価値の審級:
約2割は曖昧または議論の余地があると著者らも認め、人間研究者の目利きを前提。
研究現場へのインパクト
1) 研究の“入口”の劇的短縮
テーマ設定後、系統的文献レビュー+初期探索実験が1日で雛形に。
探索の幅が増えるぶん、研究ディレクションの選別がより重要になります。
2) KPIの再発明
“本数・インパクトファクター”偏重から、「AIが列挙した仮説→人間の追試→採択率」といった転換率KPIへ。
半年→1日の圧縮は意思決定の頻度を上げ、PI(研究代表者)のガバナンスが問われます。
3) 材料・製造の現場適用
ペロブスカイトの例が示す通り、工程パラメータ—性能の単純則(設計指針)を抽出できれば、装置条件の探索が速い。
実験機の前処理AIと接続して“Kosmos前→人間実験後”の連携を標準化したい。
4) 倫理・競争の新陳代謝
“未公開結果と独立一致”が増えるほど、情報非対称の価値が薄れ、データ公開と標準化が競争力の源泉に。
研究ノートの完全ログ化(誰が、いつ、どの推論を採用したか)も透明性の軸になります。
導入の現実論:チェックリスト
- データ境界:
個人情報・企業機密は推論系/学習系で分離。アクセス権と監査ログをSOP化。 - 評価SLA:
正答率(外部査読)/再現率(追試)/無駄実験削減率を月次レポート。 - 人的体制:
AI実験ディレクター×ドメインPIのツイン運用。 - 失敗学:
採用しなかった仮説の理由を残し、次回の探索空間に反映。 - 法務:
著作権・データライセンスの適法取得と引用の自動監査を導入初期に固める。
OpenAIアルトマン氏の予言との関係
OpenAIのアルトマン氏は近時、「AIが“新しい科学”を生む段階に近づく」と発言し、コミュニティの関心を集めました。
Kosmosはその具体像の一端を示した格好ですが、最終審級はやはり人間。
新規データを採り、臨床や製造に落とし込む工程は、今後もしばらく人間側の役割です。
まとめ
- 事実:
Kosmosは12時間運転で1,500本読了/4.2万行実行、7件の代表成果を提示。
約79.4%の正確性が外部査読で示された(自己申告含む)。 - 意味:
AIが研究の速度・幅・透明性を大幅に押し上げ、“研究助手→共同研究者”への進化を印象づけた。 - 課題:
新規データ非対応、非構造データの弱さ、2割の不確かさ。
人間の目利き・追試・倫理ガバナンスが不可欠。 - 提案:
SLA化・ツイン運用・ログ公開で、“1日で半年分”を役に立つ成果へ転換する仕組みを先に整えること。



コメント