講習会
for 塾生
募集終了
8/1(木)、8/2(金)15:30-17:30
回数:全4コマ(2コマ/日x2日間)
形式:対面
主催:AIC
この講義は、深層学習に関する理論の知識や実装の経験はある一方音響信号処理に関しては扱った経験がない方を対象に、それらについて学習するものです。
特に音信号については大規模言語モデルにおけるテキスト・画像の処理能力が向上したことを背景に、次なるモダリティとして研究が盛り上がりを見せています。研究・実務双方での視点を織り込んで、受講者が実社会における問題に取り組む際の指針決定ができること、及び近年の論文概要の理解ができるようになることを学習目標とします。
対面(日吉 協生館2階 AICラウンジ)
※録画およびオンライン配信の予定はありません。
基本的な深層学習に関する理論の知識、および実装の経験を求めます。
特にCNNを用いた画像処理について経験のない方は一度実装しておくことをお勧めします。
音の処理を行うので、イヤホン・ヘッドホンなどがあると理解が深まります。
村松 亮(環境情報学部)
昨年度実施『機械学習上級講座』講師。
2020年より深層学習を用いた音響信号処理に関して研究活動を開始。
現在は自身の事業、一般企業等にて深層学習に関する研究を行う。
RegeneronISEF2022日本代表、文部科学大臣特別表彰等。
第1回 分野の全体像、 および音響信号と 一般的な特徴量 | 8月1日 (木) 15:30-16:30 | 音響信号処理に関する問題は、音楽の分離、発話の検出、ノイズリダクション、機械の異常音検知、鳥の鳴き声理解…と非常に多岐に渡る。まずはこれらに共通する基礎的な性質やPythonにおける取り扱いを確認する。加えて、音響信号処理を取り巻く環境(主要な学会やチャレンジなど)についても紹介したい。本講義を通じて、波という物理対象を深層学習で扱う(=数学的・物理的背景を持った分析が比較的有効である)ことの面白さを共有したい。 |
第2回 各特性に合わせた 特徴量と深層学習 | 8月1日 (木) 16:30-17:30 | まずフーリエ変換について確認する。メル尺度という概念を中心に、人体ベースの特徴量についてもその適用の有用性について議論したい。中でも音声という特殊な音響信号に関して、フォルマントと声道の形状等の関連性やその個々人の人体形状を正規化する手法、または海外における発音特徴の取り扱いについても考えたい。逆に、音楽信号についてもテンポ解析の手法を中心に紹介する。また実際に深層学習を用いた分類モデルを実装する。各アーキテクチャについて、音響信号についてはどう動作するのか予想を立て、(例えば画像処理においてCNNのフィルタはエッジ等を検出するように学習が進むが、波形に対してはどうだろう?) 実装して確認する。 |
第3回 データ拡張・ ノイズ処理 | 8月2日 (金)15:30-16:30 | 音響信号の種類は多岐に渡り、開発したいもののためのデータセットが得られない場合が多い。実際の研究や業務においては、劣悪な録音環境の場合も多いためデータ拡張やノイズ処理を利用できることは大きな強みとなる。ただし、音響データにおけるこれらは非常に繊細な特徴量の考慮が求められるため、この指針について共有する。また、検出と分離に焦点を当てて深層学習を用いた処理を深掘る。Few, Zero-shotでの検出、TS-VADなどの実用的な技術を交えて議論をする。加えて、CaC形式のU-Netのような分離における重要なフレームについても紹介したい。 |
第4回 近年の研究動向 | 8月2日 (金) 16:30-17:30 | 近年の研究からトレンドを読み取る。主にDCASE2023、SDX2023を中心に、いくつかの論文を取り扱う。希望があれば、音響信号を扱うAIスタートアップの状況についても取り扱う。総復習として、講師の独自データを用いて各個人でモデルの学習を行うミニコンペを行う。学習中に、実際にそれぞれのチャレンジで好成績を収めた実行可能なものを体験する。 |