banner
ホームページ / ブログ / ラジオミクスおよび影響因子における機械学習アルゴリズムのパフォーマンスの比較
ブログ

ラジオミクスおよび影響因子における機械学習アルゴリズムのパフォーマンスの比較

Jun 26, 2023Jun 26, 2023

Scientific Reports volume 13、記事番号: 14069 (2023) この記事を引用

76 アクセス

1 オルトメトリック

メトリクスの詳細

現在、ラジオミクスでどの機械学習 (ML) アルゴリズムを使用すべきかについての推奨事項はありません。 目的は、さまざまな臨床問題に適用した場合のラジオミクスにおける ML アルゴリズムのパフォーマンスを比較し、データセットに関係なく、いくつかの戦略が最良かつ最も安定したパフォーマンスを提供できるかどうかを判断することでした。 この研究では、10 個のデータセットに対して、9 つの特徴選択アルゴリズムと 14 のバイナリ分類アルゴリズムを組み合わせたパフォーマンスを比較しています。 これらのデータセットには、ラジオミクスの特徴と、CT、頭頸部、MRI での眼窩または子宮の病変を含む、新型コロナウイルス感染症肺炎またはサルコペニアなどの二項臨床分類の臨床診断が含まれています。 データセットごとに、トレーニングとテストの分割が作成されました。 特徴選択アルゴリズムと分類アルゴリズムの 126 (9 × 14) の組み合わせのそれぞれが、10 倍相互検証を使用してトレーニングおよび調整され、AUC が計算されました。 この手順はデータセットごとに 3 回繰り返されました。 最高の全体的なパフォーマンスは、特徴選択アルゴリズムとして JMI および JMIM を使用し、分類アルゴリズムとしてランダム フォレストおよび線形回帰モデルを使用して得られました。 分類アルゴリズムの選択は、パフォーマンスの変動の大部分 (総分散の 10%) を説明する要因でした。 特徴選択アルゴリズムの選択では変動の 2% のみが説明されましたが、トレーニングとテストの分割では 9% が説明されました。

ラジオミクスは、疾患の新しい予測、診断、予後イメージング バイオマーカーを発見するために、医療画像から多数の特徴を定量的に抽出することと定義できます。 ラジオミクスは、機械学習技術を使用して医療画像から人間の目には見えない情報を非侵襲的に抽出することを可能にし、有望な結果を示しています。 しかし、基準がないため、臨床現場でのラジオミクスバイオマーカーの使用が妨げられています1。

ラジオミクス研究は、コホート構成と画像取得、関心領域 (ROI) のセグメンテーション、特徴抽出、モデリング、(理想的には) 独立したデータセットでの外部検証の 5 つのステップで構成されています2。

モデリング フェーズ自体は、特徴の選択と予測という 2 つの異なるステップに依存します。 各ステップでは、さまざまな方法とアルゴリズムが利用できるため、多数の組み合わせが可能になります。 現在まで、ラジオミクスを実行する際にどのアルゴリズムを優先的に使用すべきかについての戦略や推奨事項は発表されていません。 したがって、最良の結果をもたらすアルゴリズムはシナリオに依存すると考えられているため、一部のチームは研究を実行する際に異なるアルゴリズムを同時にテストすることを選択しました3。 ただし、特定のデータセットに対してラジオミクスを実行するときに多数の戦略をテストすると、誤った発見のリスクが高まります。 したがって、有意義な結果が得られる可能性を高めるために、選択したモデルの数を減らすことが望ましい場合があります。

ラジオミクス品質スコア 2 や医療画像処理における人工知能のチェックリスト (CLAIM) 4 などの推奨事項を発行する取り組みがいくつかあるとしても、これらの推奨事項は十分に遵守されていません。 たとえば、Roberts らによって調査された Covid-19 の診断または予後に関する 69 件の機械学習研究 5 のうち、36 件中 6 以上の RQS を獲得したのは 25 件のみでした。これらの結果は、Spadarella らのレビュー 6 によって裏付けられています。 44 件のラジオミクス研究の RQS 中央値は 21% (7,5) でした。 研究のさまざまな段階で方法論の選択が不十分だと、偏った結果が生じる可能性があるため、これは重要な問題です。 トレーニング データセットの分布が対象集団と異なる場合は、コホート構成ステップの早い段階でバイアスが導入される可能性があります7。 また、データセットのアノテーション中のオペレータの変動によっても発生する可能性があります。 Joskowicz et al8 は、3193 CT セグメンテーションで、2 人の観察者間の平均体積オーバーラップ変動が 37% であることを示しました。 この変動により、一部のラジオミクス機能の再現が妨げられる場合があります。 また、ML アルゴリズムはオーバーフィットしたり、誤って推定されたパフォーマンスを提供したりする可能性があります。 Varoquaux らによる神経画像データセットに関する 9 の実験では、研究サンプル サイズが 100 である場合、予測精度に ± 10% の誤差が生じることが明らかになりました。 逆に、Kaggle コンペティションに関する Roelofs らの研究 10 では、十分な大きさのテストサンプルによって過剰適合を防止できることが示されました。 Roelofs 氏は、過剰適合を防ぐために 10,000 件の例が最小限であると考えました。