Skip to main content

การรู้จำเสียงพูด & AI

9 ภาษา ASR ใหม่

VoicePing รองรับ 9 ภาษาเพิ่มเติมสำหรับการถอดความเสียงพูดแบบเรียลไทม์: เยอรมัน, ไทย, โปรตุเกส, สเปน, ฝรั่งเศส, อาหรับ, ฮินดี, อินโดนีเซีย และมาเลย์ นอกจากนี้ยังเพิ่มภาษาเนปาลและพม่าด้วย

สร้างวลีที่กำหนดเองอัตโนมัติ

อัปโหลด PDF, ไฟล์ข้อความ หรือวางข้อความดิบ — VoicePing จะดึงคำศัพท์เฉพาะโดเมนโดยอัตโนมัติและแนะนำวลีที่กำหนดเองเพื่อปรับปรุงความแม่นยำในการรับรู้ ระบบระบุคำที่โมเดล ASR มีแนวโน้มจำผิดและเพิ่มลงในพจนานุกรมวลีที่กำหนดเอง รองรับทุกภาษา

การปรับปรุงการกดขี่ Hallucination

ลดข้อผิดพลาดในการถอดความที่พบบ่อย (เช่น การซ้ำของข้อความเติม) ผ่านการกรองข้อมูลการฝึกและการปรับแต่ง inference ที่ปรับปรุงแล้ว ส่งผลให้ผลลัพธ์การถอดความสะอาดขึ้นในทุกภาษา

การตรวจจับประโยคสั้นที่ดีขึ้น

ปรับปรุงความเสถียรของโหมดสองภาษาสำหรับประโยคสั้นมาก — คำตอบสั้นๆ ถูกตรวจจับในภาษาที่ถูกต้องได้น่าเชื่อถือมากขึ้น

เพิ่มจำนวนวลีที่กำหนดเองสูงสุด

จำนวนวลีที่กำหนดเองสูงสุดต่อ workspace เพิ่มขึ้นจาก 500 เป็น 1,000 รายการ โดยมีผลกระทบน้อยมากต่อความเร็วในการรับรู้

ความเร็วการถอดความแบบออฟไลน์ (มือถือ)

ปรับปรุงประสิทธิภาพการถอดความบนอุปกรณ์อย่างมีนัยสำคัญทั้งบน iOS และ Android โดยแทนที่ inference engine ออฟไลน์เดิม

การปรับปรุง Meeting Log และบันทึกการถอดความ

มุมมองบันทึกการถอดความแบบรวม

รายการ meeting log (พร้อมการค้นหาคำสำคัญที่เปิดตัวในเดือนมกราคม) ได้รับการออกแบบใหม่เป็นมุมมองรวมเดียว เพิ่ม:
  • การกรองตามช่วงวันที่, การกรองแท็ก และการกรองผู้สร้าง
  • ผลลัพธ์ที่เรียงลำดับได้ พร้อม URL ตัวกรองที่แชร์ได้ผ่านพารามิเตอร์ query
  • พร้อมใช้งานทั้งบนเว็บและมือถือ

ดาวน์โหลดบันทึกการถอดความจำนวนมาก

เลือกและดาวน์โหลดไฟล์บันทึกการถอดความหลายไฟล์โดยตรงจากผลการค้นหา — เหมาะสำหรับเวิร์กโฟลว์การส่งออกข้อมูลระดับ enterprise

กำหนดผู้พูดใหม่

ขยายฟีเจอร์รวมผู้พูด (เปิดตัวในเดือนมกราคม) ด้วย UI การกำหนดใหม่แบบครบถ้วน:
  • กำหนดใหม่ ป้ายกำกับผู้พูดในกลุ่มบันทึกการถอดความต่างๆ
  • เปลี่ยนป้ายกำกับจำนวนมาก ส่วนทั้งหมดจากผู้พูดคนหนึ่งไปยังอีกคน

คัดลอกไปคลิปบอร์ด

ปุ่มคัดลอกคลิกเดียวบนหน้า meeting log เพื่อคัดลอกข้อความบันทึกการถอดความทั้งหมดรวมถึงสรุป สำหรับวางลงในเครื่องมือภายนอกอย่างรวดเร็ว

ดาวน์โหลด SRT

บันทึกการถอดความการประชุมสามารถดาวน์โหลดในรูปแบบ SRT (ซับไตเติ้ล) สำหรับใช้ในเวิร์กโฟลว์การตัดต่อวิดีโอและซับไตเติ้ลได้แล้ว

แก้ไขค่าเริ่มต้นภาษา Meeting Log

ตัวเลือกภาษาใน meeting log ตอนนี้ตั้งค่าเริ่มต้นเป็นภาษาแสดงผลของผู้ใช้อย่างถูกต้อง แทนที่จะตั้งค่าเริ่มต้นเป็นภาษาอังกฤษเสมอ

อัปเดตแอปมือถือ

  • แก้ไขโหมดสองภาษา: แก้ไขบั๊กสำคัญในโหมดสองภาษาบนมือถือผ่านการอัปเดต app store แบบเร่งด่วน (v0.5.11)
  • UI โหมดสองภาษา: ปรับปรุงเลย์เอาต์ปุ่มสำหรับหน้าจอมือถือขนาดเล็ก
  • รายการบันทึกการถอดความแบบรวม: มือถือใช้อินเตอร์เฟซการค้นหาและกรองเดียวกันกับแอปเว็บ
  • เก้าภาษาใหม่: ภาษา ASR ที่เพิ่มใหม่ทั้งหมดพร้อมใช้งานบนมือถือ
  • ความเร็วการถอดความแบบออฟไลน์: ปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญสำหรับการถอดความบนอุปกรณ์ทั้งบน iOS และ Android

อัปเดตแอปเดสก์ท็อป

  • โหมดเต็มหน้าจอ: โหมดดึงเสียง (ถอดความ) รองรับเต็มหน้าจอสำหรับประสบการณ์การนำเสนอที่ดีขึ้นในงานสดๆ
  • ระยะเวลาข้อความที่กำหนดได้: ระยะเวลาข้อความขั้นต่ำลดลงเหลือ 2 วินาที สำหรับการแสดงซับไตเติ้ลที่เร็วขึ้นในการถอดความแบบเรียลไทม์
  • ควบคุมการบันทึกจาก system tray: เมนู system tray ใหม่สำหรับ macOS/Windows เพื่อเริ่ม/หยุดการบันทึกโดยตรงจาก menu bar โดยไม่ต้องเปิดหน้าต่างหลัก

การปรับปรุงคำบรรยายและซับไตเติ้ล

  • แก้ไขการตัดบรรทัด: แก้ไขปัญหาที่ข้อความซับไตเติ้ลแตกบรรทัดอย่างไม่เหมาะสมในไฟล์วิดีโอที่ฝัง
  • ตำแหน่งซับไตเติ้ล: เลื่อนข้อความซับไตเติ้ลขึ้นเล็กน้อยเพื่อหลีกเลี่ยงการทับ taskbar ของระบบ
  • แก้ไขขนาดฟอนต์ภาษาอังกฤษ: แก้ไขขนาดฟอนต์สำหรับข้อความ, ตัวเลข และอักขระพิเศษภาษาอังกฤษในการแสดงซับไตเติ้ล
  • ขยายภาษาแท็บ Caption: แท็บ Caption รองรับภาษาที่เพิ่มใหม่ทั้งหมดสำหรับการถอดความวิดีโอ, การฝังซับ และการพากย์เสียง

การปรับปรุง UI/UX

  • ส่งออก CSV กลุ่มและโปรเจ็กต์: ส่งออกการกำหนดสมาชิกกลุ่มและโปรเจ็กต์เป็น CSV สำหรับการจัดสรรต้นทุนแผนกและการจัดการจำนวนมาก
  • รวบรวม feedback ผู้ใช้: ปรับปรุงขั้นตอนการสมัครสมาชิกเพื่อรวบรวมข้อมูล persona และ feedback รวมถึงช่องความคิดเห็นอิสระ
  • การแปลภาษาญี่ปุ่น: เสร็จสิ้นการแปลภาษาญี่ปุ่นสำหรับส่วนหัวรายการบันทึกการถอดความ, ป้ายกำกับตัวกรอง และส่วนประกอบการนำทาง
  • การจัดการการตั้งค่าอีเมล: ระบบการตั้งค่าอีเมลใหม่ที่เข้าถึงได้จาก footer อีเมล — จัดการการสมัครรับอีเมลการตลาดและระบบโดยไม่ต้องเข้าสู่ระบบ
  • การแชร์ QR code: รวม QR code, การดาวน์โหลด และการแชร์ URL เป็น dialog เดียว

แก้ไขบั๊ก

  • แก้ไขการแสดงการแปลภาษาจีน: การแปลจากบางภาษาเป็นจีนไม่แสดงเนื่องจากรหัสภาษาไม่ตรงกัน — แก้ไขแล้ว
  • แก้ไขสถานะสรุปวนลูปไม่สิ้นสุด: สรุป meeting log อาจค้างอยู่ในสถานะ “กำลังสร้าง” — ปรับปรุงการจัดการ timeout แล้ว
  • แก้ไขโหมดภาษาเดียวภาษาฮินดี: การถอดความภาษาฮินดีบางครั้งคืนค่าเป็นภาษาอังกฤษแม้ว่าจะปิดโหมดสองภาษา — ตอนนี้บังคับเป็นภาษาฮินดีอย่างถูกต้อง
  • แก้ไขภาษาแสดงผลจีน: ภาษาแอปที่ตั้งเป็นจีนไม่แสดงผลหลังโหลดหน้าใหม่
  • แก้ไขประวัติบันทึกการถอดความในโหมดผู้ฟัง: ข้อมูลบันทึกการถอดความที่ไม่สมบูรณ์หรือเก่าในโหมดผู้ฟังแสดงผลอย่างถูกต้องแล้ว

งานวิจัยและสิ่งตีพิมพ์

เผยแพร่บล็อกโพสต์งานวิจัยสี่รายการ:
  1. Offline Speech Translation
  2. Speech-to-Speech Translation
  3. Offline Speech Transcription Benchmark
  4. Offline TTS Evaluation