本記事は4分程度でお読みいただけます。
目次
はじめに
このブログ記事は、Topcoder社が運営するブログの翻訳記事です。TC3株式会社はTopcoder社の日本で唯一のプレミア・パートナーであり、Topcoder社より許可を得て日本語に翻訳した記事を掲載しています。
英語での原文記事はHOW THE CDC USES CROWDSOURCING AND MACHINE LEARNING TO IMPROVE PUBLIC HEALTHをご確認ください。
今回は、UpriserというTopcoderのマーケティング部門 Vice Presidentがホストを務めるポッドキャストのサマリ記事で、アメリカ疾病管理予防センターが行った自然言語処理系の機械学習アルゴリズム開発プロジェクトに関してご紹介致します。
ーーー翻訳ここからーーー
アメリカ疾病管理予防センターによるクラウドソーシングと機械学習を活用した公衆衛生の改善事例
Upriserへようこそ。未来の働き方を中心とした、テクノロジーに関するPodcastのシリーズです。今回のエピソードでは、アメリカ疾病管理予防センター(Centers for Disease Control、略称CDC)のCarlos SiordiaさんとStephen BerkeさんがTopcoderのヴァイス/プレジデントのClinton Bonnerと、CDCの理念、仕事、そしてなぜ群衆(訳注:クラウドソーシングやギグ・エコノミー)を活用することに決めたのかを会話しました。Carlosさんは社会空間構造疫病学者で、機械学習とクラウドソーシングを活用し、データ分析を主務としており、Stephenさんは数理統計学者です。
Podcastは以下からご確認いただけます(訳注:英語です)。以下ではPodcastのハイライトをご紹介します。
アメリカ疾病管理予防センター
CDCは単一の機関ではなく、多くの異なった公共機関の集合体で、それぞれの機関は公衆衛生に関する特定分野に関する機関です。CDCのミッションは、公衆衛生に関する研究を実施することや、新たな健康への害に対応することです。Stephenさんは、国立労働安全衛生研究所(National Institte for Occupational Safety and Health、略称NIOSH)に所属しており、労働環境の改善や労働環境におけるけがや病気を予防するために情報を収集しています。社会空間構造疫病学者として、Carlosさんは社会、政治、文化、経済的な環境が健康的な生活にどのように影響するのかを研究しています。
病気を予防するために、科学と先進的テクノロジーを活用しています
ーCarlos Siordia
科学はみんなのもの
CDCがクラウドソーシングやオンデマンドな人材を活用しようとしたきっかけは何でしょうか?機械学習の技術に時間などのリソースを増やしているという、全米科学アカデミー(National Academy of Sciences)からの紹介を受けたことだったと語ります。Stephenさんによると、「サンプル量を増やすというアイデア、つまり、異なる背景や観点、経験などをもった様々な手を活用することができるということに本当に納得いきました」また、Carlosさんは以下のように付け加えます。「私やStephenそして我々のチームの同僚もみんな、科学はみんなのものであるというアイデアに心を突き動かされてきました」
労働環境の改善を支援するアルゴリズムを開発する
CarlosさんとStephenさんはTopcoderとパートナーシップを結び、「傷害データのための自動コーディングアルゴリズムの効率と精度の向上」というプロジェクトを実施しました。国立労働安全衛生研究所のコアとなる活動は職業上の傷害監視データを分析することで、これにより傾向を理解し、研究や予防対策の優先付けができます。このデータの鍵は、「傷害のナラティブ(訳注:直訳では物語。傷害の前後の文脈)」です。これは、テキストが多く、雇用主や医療機関による始まりと終わりがわかりにくい記録であったり、従業員の損害補償にかんするレポートであったりします。テキスト分類の機械学習を活用して、アルゴリズムがこの損傷のナラティブを読みとり、データを時系列に並べます。
Carlosさんは、データサイエンス領域における、問題定義のフェーズがいかに重要であるかを説明しました。「99%の時間を問題定義のフェーズにかけないといけないと思っています」とCarlosさんは言います。「解決したいものの問題が何かを見出すことができれば、あとはほとんど終わったようなものです」StephenさんとCarlosさんにお時間いただき、Upriserの視聴者に洞察を提供できたことに感謝いたします。
我々はコーディングシステムを80%台から90%の精度まで改善することができました。これは小さな改善に聞こえるかもしれませんが、何十、何百、何千ものクレームがあると考えると、数%の結果改善の積み上げで膨大な時間の削減になります
ーStephen Bertke
ーーー翻訳ここまでーーー
おわりに
いかがだったでしょうか?
今回はPodcastでの会話のハイライトにもある通り、CDCでの今回の取り組みは、自然言語処理(NLP)関連の機械学習のアルゴリズムの精度をTopcoderのコンテストを開催することで、80%台から90%に向上した成功事例となっています。これにより、分析対象となる精度の高いデータを研究者にわたすことができるようになりました。また、労働環境における傷害の予防対策の施策実施がタイムリーに行えるようになることが期待できるとのことです。
こちらのサイトに事例情報として今回の取り組みに関しての情報がまとめられていますので、ご興味ある方はぜひご覧ください。
今回ご紹介した記事が何かの気付きにつながれば幸いです。
TC3はTopcoderに参加する群衆の知を活用した課題解決を、技術コンサルティングサービスと合わせてご提供しています。TC3が提供するデータサイエンス領域のソリューション概要資料は以下のフォームよりダウンロードいただけます。
エネルギー業界に限らず様々な業種のお客様のご支援をサポートしております。
キャッチ画像は、 Josue Isai Ramos Figueroa on Unsplash を活用させていただきました。