エッジAI技術 | Brothers & Co.株式会社

【エッジAI技術】

音声技術・行動認識技術・マルチモーダルAI技術

軽量な音声系技術・行動認識技術・マルチモーダル生成AI技術等の先進的なソフトウェア技術のご提供

特徴 機能 仕様情報

　特徴　

● 音声認識・音声合成・話者認識・音響イベント検出・感情分類・音声対話等の音声系技術、行動認識技術を中心としたソフトウェア技術をフルスクラッチ開発

● 組み込み端末やNPUでも動作する軽量なエンジンからサーバシステム用の大規模エンジンまで移植してご提供可

● フルスクラッチ開発,ファインチューニング, 強化学習, 蒸留, 量子化等、最適な開発を実施の上、ご提供可

　機能　

● 音声技術

大規模モデルを開発し、ターゲット環境で動作する軽量な手法に蒸留
Arm9(240MHz), NPU(1TOPS/512MB LPDDR4)等で動作実績あり

　音声認識　

Time delay neural network (TDNN)による英語・日本語向け連続音声認識技術
NPU、モバイル端末等多くの環境でご利用頂けるよう複数種類のパラメータサイズの音響モデル及び言語モデルを開発し、導入コストを低減

　話者認証　

xVector の改良手法による話者認証モデルを開発
軽量なため、ターゲット端末上で認証対象話者の登録処理も可能

　感情分類 / 音声分類　

1D-CNN＋Transformerによる感情分類モデルを開発
8クラス("anger", "disgust", "fear", "happiness", "sadness", "surprise", "neutral", "calm")の分類が可能であり、さらに独自クラスの追加も可能

　音響イベント検出　

Audio Spectrogram Transformerによる音響イベント検出モデル及びMobileNet の改良手法による軽量モデルを開発
527クラスの分類が可能であり、さらに独自クラスの追加も可能

● VLM（Vision Language Model）

オフライン且つモバイル端末上で軽快に動作するVLMの開発

● 行動認識技術

軽量な行動認識モデルと異常検知モデルにより、作業のオペレーションミスの検知、不審行動の検知等、従来技術では難しい複雑な行動の検知が可能
常時稼働や頻回な稼働でも低コストに運用可
検出したい独自行動を追加カスタマイズし、お客様独自のAIモデルをご提供可
NPUやモバイル端末等で動作するように軽量化(蒸留・量子化)・移植可

　手法概要　

Transformerエンコーダによる汎用行動を理解する行動認識モデル及び異常行動を検知する異常検知モデルの2層で構成
ターゲット環境で動作するよう蒸留し軽量化

　ご利用イメージ①　不正・不審行動の検出　

車両の進入

不審行動

転倒

※UCSD Anomaly Detection Dataset

　ご利用イメージ②　見守りによる安全性の向上　

ヘルメット未着用

　ご利用イメージ③　オペレーションの確認　

正常

正常

作業誤り

　仕様情報　

お客様環境に移植させて頂きます。詳細はお問合せください。

※ 提供機能によって必要となる動作環境は異なります。

お問い合わせよりご連絡ください。

お問合せはこちら