Googleが運営するAIコンペサイトKaggleが、新型コロナウイルスの感染人数を予測するコンペを開催している。
AIの予測モデルを作る職種をデータサイエンティストと呼ぶが、Kaggleはいわば世界中のデータサイエンティストの腕試しの場。普段は企業などが、AIを使って解決したい問題をKaggle上で提示し、関連するデータを提供。そのデータを使って世界中のデータサイエンティストが問題解決のための予測モデルを生成し、その精度を競う。最も優れた予測モデルを作ったデータサイエンティストには、出題した企業から賞金が出るが、賞金以上に大変な名誉になるし、優勝者には新しい仕事のオファーが次々と寄せられる。このためKaggleは、腕に覚えがあるデータサイエンティストがスキルを競い合う場になっている。
今回のKaggleのコンペでは、米大統領府を通じて集められた感染者数などの各種関連データを使って、1ヶ月後の感染者数を予測するモデルを構築する。Kaggleは毎週新たなコンペを連続開催しており、今は感染数予測の第4週目のコンペの参加者を募集している。
Kaggleでは今回の一連のコンペを通じて、感染者数の推移の予測はもとより、世界保健機関(WHO)と全米科学・工学・医学アカデミー(NASEM)が抱える新型コロナウイルスに関連する疑問にも答えることができるとしている。
WHOなどが提示している疑問には、次のようなものがある。
(1)薬以外の対処方法の効果はどれくらいあるのだろうか?
例えば、学校の一斉休校、イベント中止、外出禁止などの施策の効果はどの程度あるのだろうか。そうした施策を人々がどの程度守るのかという順守率と、その都市の中小企業の密集率との関連性はどの程度あるのか。検索キーワードやソーシャルメディア上のデータから見る人々の恐れや不安の割合と、順守率の関係は?
(2)その地域の温度、湿度、空気汚染と、感染率との関係は?
(3)新型コロナウイルスに感染し重篤化するリスク要因は何か?例えばその地域の人口における喫煙者の割合は、感染率や重篤化率に関係するのか?
(4)その地域の医師、看護師、病院の数は、感染率、重篤化率、死亡率に関係するのか?