【エッジAI技術】

音声技術・行動認識技術・マルチモーダルAI技術

軽量な音声系技術・行動認識技術・マルチモーダル生成AI技術等の先進的なソフトウェア技術のご提供

 特徴 

音声認識・音声合成・話者認識・音響イベント検出・感情分類・音声対話等の音声系技術、行動認識技術を中心としたソフトウェア技術をフルスクラッチ開発

組み込み端末やNPUでも動作する軽量なエンジンからサーバシステム用の大規模エンジンまで移植してご提供可

フルスクラッチ開発,ファインチューニング, 強化学習, 蒸留, 量子化等、最適な開発を実施の上、ご提供可

 機能 

音声技術

  • 大規模モデルを開発し、ターゲット環境で動作する軽量な手法に蒸留
    Arm9(240MHz), NPU(1TOPS/512MB LPDDR4)等で動作実績あり

 音声認識 

  • Time delay neural network (TDNN)による英語・日本語向け連続音声認識技術

  • NPU、モバイル端末等多くの環境でご利用頂けるよう複数種類のパラメータサイズの音響モデル及び言語モデルを開発し、導入コストを低減

 話者認証 

  • xVector の改良手法による話者認証モデルを開発

  • 軽量なため、ターゲット端末上で認証対象話者の登録処理も可能

 感情分類 / 音声分類 

  • 1D-CNN+Transformerによる感情分類モデルを開発

  • 8クラス("anger", "disgust", "fear", "happiness", "sadness", "surprise", "neutral", "calm")の分類が可能であり、さらに独自クラスの追加も可能

 音響イベント検出 

  • Audio Spectrogram Transformerによる音響イベント検出モデル及びMobileNet の改良手法による軽量モデルを開発

  • 527クラスの分類が可能であり、さらに独自クラスの追加も可能

VLM(Vision Language Model)

  • オフライン且つモバイル端末上で軽快に動作するVLMの開発

行動認識技術

  • 軽量な行動認識モデルと異常検知モデルにより、作業のオペレーションミスの検知、不審行動の検知等、従来技術では難しい複雑な行動の検知が可能

  • 常時稼働や頻回な稼働でも低コストに運用可

  • 検出したい独自行動を追加カスタマイズし、お客様独自のAIモデルをご提供可

  • NPUやモバイル端末等で動作するように軽量化(蒸留・量子化)・移植可

 手法概要 

  • Transformerエンコーダによる汎用行動を理解する行動認識モデル及び異常行動を検知する異常検知モデルの2層で構成

  • ターゲット環境で動作するよう蒸留し軽量化

 ご利用イメージ① 不正・不審行動の検出 

車両の進入

不審行動

転倒

※UCSD Anomaly Detection Dataset

 ご利用イメージ② 見守りによる安全性の向上 

ヘルメット未着用

 ご利用イメージ③ オペレーションの確認 

正常

正常

作業誤り

 仕様情報 

お客様環境に移植させて頂きます。詳細はお問合せください。

 ※ 提供機能によって必要となる動作環境は異なります。

お問い合わせよりご連絡ください。

お問合せはこちら