こんにちは,@PKです.
昨日のmishima.syk#14でKNIMEについて話をさせていただきました.
私以外にはIT系の話題や,@bonohuによる「CWLに関する話」,@antiplasticsの「一細胞オミックスのための新GSEA手法」など非常に技術・サイエンスレベルが高い発表があり,勉強になりました.
あと阪医Python会の方々のLTで,学部1年生で論文呼んでプログラム書いていて超刺激を受けました.
今回の勉強会をきっかけに,紹介していただいた内容を自分でも実際に使ってみたり,理解していきたいです.
さて,私の演題は「KNIMEの話」としていたのですが,以下のような内容の話をしました.
- KNIMEについて
- KNIMEを使って何ができるの?
- 生データの加工(前処理)
- データの統計処理・解析
- 解析のルーチン化
- APIを使って外部データベースから情報を取得
- CellProfilerとKNIMEを活用したHigh Content Analysis
- Transfluor Assayの定量化
- KNIME Workflowを利用したHCA解析
その後の質疑応答や懇親会でもたくさんの方と話をすることができました.
今回のmishima.sykではKNIMEを使っている方が多く参加しており,最初の自己紹介で好きなKNIMEノードを話すところから始まったりして楽しかったです.
今回の発表で質疑応答や議論の中で感じたことをメモ代わりに書き留めておきます.
前半のデータの加工や前処理については,PythonやRで良いんじゃないか?という意見もいただきまして,それは全くそのとおりだと思います.
@fmkz___さんの「KNIME Workflow Management System」の発表内でも触れていましたが,KNIMEを使うと,ある程度できるようになるまでの時間は短縮できるが,ノード以上のことはできないというデメリットもきちんと理解して使うべきです.
自身も今更ですが,Rのdplyrとかでデータの前処理をする方法を学んでいますし,必要な部分はRで処理をしています.
また,同じ発表内で以下のようなコメントもありました.
汚いデータを加工して統計解析まで持っていく力はなかなか身につかない#mishimasyk
— PK (@t_kahi) September 21, 2019
上の言葉も現場感覚としてはとても納得できました.
もちろん,全員がきっちりとトレーニングを受ければプログラミングできるようになるのですが,最初の取っ掛かりはKNIMEでも良いかなと思います.
理由としては,インフォマティクスの専門家でない場合は,創薬のドメイン知識(専門分野の疾患領域やin vitro創薬の知識技術)の部分に時間のリソースを割いたほうが良いと感じているからです.
データサイエンティストに必要なもの。ドメイン知識、ITスキル、統計処理能力 #mishimasyk
— 非プログラマのバイオ系 (@bonohu) September 21, 2019
ある程度業務で必要なデータ処理ができるようになって,そこから更にプログラム技術をつけていきたい場合は,それぞれが更に勉強して技術レベルを高めていけるはずです.
自分も今回の懇親会で,(いい意味で)GUIのKNIMEにこだわらずCUIでの解析も頑張っていこう!と激励されたので引き続き精進します.
あとWorkflowという言葉の使い方についてですが,
自分はKNIME Workflowでデータを処理すると全般をWorkflowとよんでいるのですが,IT寄りの方と話していてWorkflowはデータ処理の自動化のようなイメージだったので言葉の使い方は大事ですね.
CellProfiler+KNIMEを使ったHCAの観点でいうと,KNIME Workflowは処理の自動化を超えて,解析プラットフォーム(解析画像データの表示やDose-Response Curveの作成,各種解析の実行)みたいに使っているので,KNIMEのこのようなインタラクティブな使い方は便利なので広めていきたいなあと思いました.
また,「CellProfilerとKNIMEを活用したHigh Content Analysis」についても面白かったとコメントをもらえ,とても安心しました.
CellProfilerとKNIMEを組み合わせることは別に目新しいことではなくて,結構前に記事もあります.
CellProfiler and KNIME: open source tools for high content screening. - PubMed - NCBI
後半で,本来であればWell平均値で埋もれてしまう細胞間のばらつきを表現する手法について紹介しましたが,こちらも何人かに興味を持ってもらえたようで良かったです.
細胞間のばらつきを表現する際に使用したQuadratic EntropyやKS-testの計算はこれまでもブログで紹介しているので,ぜひ参考にしていただければと思います.
www.t-kahi.com
www.t-kahi.com
www.t-kahi.com
HCAから出てくるデータをどうやって最大限活用して創薬に応用していくか,これからも考え続けていきたいです.