Skip to main content

音声認識・AI

9つの新言語

VoicePingが9つの追加言語のリアルタイム音声認識に対応しました:ドイツ語、タイ語、ポルトガル語、スペイン語、フランス語、アラビア語、ヒンディー語、インドネシア語、マレー語。ネパール語とミャンマー語も追加されました。

カスタムフレーズ自動生成

PDF、テキストファイルのアップロード、またはテキスト貼り付けにより、ドメイン固有の語彙を自動抽出し、認識精度向上のためのカスタムフレーズを提案します。ASRモデルが誤認識しやすい単語を特定し、カスタムフレーズ辞書に追加します。すべての言語に対応しています。

ハルシネーション抑制の改善

トレーニングデータのフィルタリングと推論チューニングの改善により、一般的な文字起こしアーティファクト(繰り返しフィラーテキストなど)を削減し、すべての言語でよりクリーンな文字起こし出力を実現しました。

短い発話の検出改善

バイリンガルモードでの短い発話の安定性が向上しました。短い応答がより正確に正しい言語で検出されるようになりました。

カスタムフレーズ容量増加

ワークスペースあたりの最大カスタムフレーズ数が500から1,000に増加しました。認識速度への影響は最小限です。

オフライン文字起こし速度(モバイル)

iOSおよびAndroidの両方でオンデバイスの文字起こしパフォーマンスを大幅に向上させ、従来のオフライン推論エンジンを置き換えました。

議事録・トランスクリプト改善

統合トランスクリプトビュー

議事録リスト(1月に導入されたキーワード検索付き)が統合ビューに再設計されました:
  • 日付範囲フィルタリング、タグフィルタリング、作成者フィルタリング
  • ソート可能な結果とクエリパラメータによる共有可能なフィルタURL
  • ウェブとモバイルの両方で利用可能

一括トランスクリプトダウンロード

検索結果から複数のトランスクリプトファイルを選択してダウンロードできます。エンタープライズのデータエクスポートに最適です。

話者の再割り当て

1月に導入された話者マージ機能を拡張し、完全な再割り当てUIを追加:
  • 異なるトランスクリプトグループ間での話者ラベルの再割り当て
  • 一人の話者からすべてのセグメントを別の話者に一括ラベル変更

クリップボードにコピー

議事録ページのワンクリックコピーボタンで、要約を含む全トランスクリプトテキストをコピーできます。

SRTダウンロード

動画編集や字幕ワークフロー用に、SRT(字幕)形式で議事録をダウンロードできるようになりました。

議事録の言語デフォルト修正

議事録の言語セレクターが、英語ではなくユーザーの表示言語をデフォルトで使用するようになりました。

モバイルアプリ更新

  • バイリンガルモード修正:緊急アプリストアアップデートで重大なバグを解決
  • バイリンガルモードUI:小さなモバイル画面向けにボタンレイアウトを改善
  • 統合トランスクリプトリスト:モバイルでもウェブアプリと同じ検索・フィルタインターフェースを使用
  • 9つの新言語:新しく追加されたすべてのASR言語がモバイルで利用可能
  • オフライン文字起こし速度:iOS・Androidでのオンデバイスパフォーマンスが大幅に向上

デスクトップアプリ更新

  • フルスクリーンモード:ライブイベント向けに音声抽出(文字起こし)モードがフルスクリーン対応
  • メッセージ表示時間設定:リアルタイム文字起こしのため最小メッセージ表示時間を2秒に短縮
  • システムトレイ録音コントロール:macOS/Windowsのシステムトレイから直接録音の開始・停止が可能な新しいシステムトレイメニュー(メインアプリウィンドウを開かずに操作可能)

字幕・キャプション改善

  • 改行修正:埋め込み動画ファイルで字幕テキストが不自然に改行される問題を解決
  • 字幕位置調整:システムタスクバーとの重なりを避けるため字幕テキストを少し上に移動
  • 英語フォントサイズ修正:字幕レンダリングでの英語テキスト、数字、特殊文字のフォントサイズを修正
  • キャプションタブの言語拡張:動画文字起こし、字幕埋め込み、吹き替え向けに、新しく追加されたすべての言語でキャプションタブが利用可能に

UI/UX改善

  • グループ・プロジェクトCSVエクスポート:部門コスト配分・一括管理用にグループ・プロジェクトメンバーの割り当てをCSVでエクスポート
  • ユーザーフィードバック収集:サインアップフローを強化し、ペルソナ・フィードバックデータとフリーフォームコメント欄を追加
  • 日本語ローカライゼーション:トランスクリプトリストヘッダー、フィルタラベル、ナビゲーションの日本語翻訳を完了
  • メール配信設定管理:メールフッターからログインなしでマーケティング・システムメールの配信設定を管理できる新システム
  • QRコード共有:QRコード、ダウンロード、URL共有を1つのダイアログに統一

バグ修正

  • 中国語の翻訳表示修正:特定の言語から中国語への翻訳が言語コードの不一致により表示されない問題を解決
  • 要約の無限作成状態修正:議事録の要約が「作成中」状態でスタックする問題のタイムアウト処理を改善
  • トークナイザー読み込み修正:新言語の拡張語彙トークンが正しく読み込まれず、空の文字起こし結果となる問題を修正
  • ヒンディー語単一言語モード修正:バイリンガルモード無効時にヒンディー語の文字起こしが英語を返すことがある問題を修正
  • 中国語表示言語の修正:アプリの言語を中国語に設定してもページ再読み込み後に反映されない問題を修正
  • リスナーモードのトランスクリプト履歴修正:リスナーモードで部分的または古いトランスクリプトデータが正しく表示されるように

研究・出版

4つの研究ブログ記事を公開:
  1. オフライン音声翻訳
  2. 音声間翻訳
  3. オフライン音声文字起こしベンチマーク
  4. オフラインTTS評価