مطالعه موردی: هوش مصنوعی محاوره ای

بیش از 3 هزار ساعت داده جمع‌آوری، بخش‌بندی و رونویسی شده برای ساخت ASR به 8 زبان هندی

مجموعه گفتار
دولت قصد دارد از طریق پروژه باشینی، شهروندان خود را به دسترسی آسان به اینترنت و خدمات دیجیتال به زبان مادری خود قادر سازد.

BHASHINI، پلتفرم ترجمه زبان مبتنی بر هوش مصنوعی هند، بخش مهمی از ابتکار هند دیجیتال است.

پلتفرم Bhashini که برای ارائه ابزارهای هوش مصنوعی (AI) و پردازش زبان طبیعی (NLP) به MSME ها، استارت آپ ها و نوآوران مستقل طراحی شده است، به عنوان یک منبع عمومی عمل می کند. هدف آن ترویج گنجاندن دیجیتال از طریق فعال کردن شهروندان هندی برای تعامل با ابتکارات دیجیتال این کشور به زبان مادری خود است.

علاوه بر این، هدف آن گسترش قابل توجهی در دسترس بودن محتوای اینترنتی به زبان‌های هندی است. این امر به ویژه در حوزه‌های منافع عمومی مانند حکومت‌داری و سیاست، علم و فناوری و غیره مورد هدف قرار می‌گیرد. در نتیجه، این امر شهروندان را تشویق می‌کند تا از اینترنت به زبان خود استفاده کنند و مشارکت فعال آنها را ارتقا دهد.

مهار NLP برای فعال کردن اکوسیستم متنوعی از مشارکت کنندگان، نهادهای شریک و شهروندان به منظور فراتر رفتن از موانع زبانی، در نتیجه تضمین گنجاندن و توانمندسازی دیجیتال

راه حل دنیای واقعی

آزادسازی قدرت بومی سازی با داده ها

هند به پلتفرمی نیاز داشت که بر ایجاد مجموعه داده های چندزبانه و راه حل های فناوری زبان مبتنی بر هوش مصنوعی متمرکز شود تا بتواند خدمات دیجیتالی را به زبان های هندی ارائه دهد. برای راه اندازی این ابتکار، مؤسسه فناوری هند، مدرس (IIT Madras) با Shaip برای جمع آوری، بخش بندی و رونویسی مجموعه داده های زبان هندی برای ساخت مدل های گفتار چند زبانه همکاری کرد.

چالش ها

برای کمک به مشتری در نقشه راه گفتار فناوری گفتار برای زبان‌های هندی، تیم باید حجم زیادی از داده‌های آموزشی را جمع‌آوری، بخش‌بندی و رونویسی کند تا مدل هوش مصنوعی بسازد. الزامات حیاتی مشتری عبارت بودند از:

جمع آوری داده ها

  • 3000 ساعت داده آموزشی به 8 زبان هندی با 4 گویش در هر زبان به دست آورید.
  • برای هر زبان، تامین کننده Extempore Speech و
    گفتار محاوره ای از گروه های سنی 18 تا 60 سال
  • از ترکیب متنوعی از گویندگان بر اساس سن، جنسیت، تحصیلات و لهجه اطمینان حاصل کنید
  • از ترکیبی متنوع از محیط های ضبط مطابق با مشخصات اطمینان حاصل کنید.
  • هر صدای ضبط شده باید حداقل 16 کیلوهرتز اما ترجیحاً 44 کیلوهرتز باشد

تقسیم بندی داده ها

  • بخش‌های گفتاری 15 ثانیه‌ای ایجاد کنید و برای هر بلندگو، نوع صدا (سخنرانی، زمزمه، موسیقی، نویز)، چرخش‌ها، گفته‌ها، و عبارات در یک مکالمه، صدا را به میلی‌ثانیه مهر کنید.
  • هر بخش را برای سیگنال صوتی مورد نظر خود با یک بالشتک 200-400 میلی ثانیه در شروع و پایان ایجاد کنید.
  • برای همه بخش ها، اشیاء زیر باید پر شوند، یعنی زمان شروع، زمان پایان، شناسه بخش، سطح بلندی صدا، نوع صدا، کد زبان، شناسه بلندگو و غیره.

رونویسی داده ها

  • دستورالعمل‌های رونویسی جزئیات در مورد نویسه‌ها و نمادهای خاص، املا و دستور زبان، حروف بزرگ، اختصارات، انقباضات، حروف گفتاری فردی، اعداد، علائم نگارشی، کلمات اختصاری، ناهموار، گفتار، گفتار نامفهوم، زبان‌های غیرهدف، غیرگفتار و غیره را دنبال کنید.

بررسی کیفیت و بازخورد

  • همه ضبط‌ها تحت ارزیابی کیفیت و اعتبارسنجی قرار می‌گیرند، فقط سخنرانی معتبر ارائه می‌شود

راه حل

با درک عمیق خود از هوش مصنوعی محاوره ای، به مشتری کمک کردیم تا داده ها را با تیمی از گردآورندگان خبره، زبان شناسان و حاشیه نویسان جمع آوری، بخش بندی و رونویسی کند تا مجموعه بزرگی از مجموعه داده های صوتی را به 8 زبان هندی بسازند.

دامنه کار برای Shaip شامل، اما نه محدود به به دست آوردن حجم زیادی از داده های آموزشی صوتی، بخش بندی صداهای ضبط شده به صورت چندگانه، رونویسی داده ها و ارائه فایل های JSON مربوطه حاوی فراداده [SpeakerID، سن، جنسیت، زبان، گویش،
زبان مادری، مدرک تحصیلی، شغل، دامنه، فرمت فایل، فرکانس، کانال، نوع صدا، تعداد بلندگوها، تعداد زبان‌های خارجی، تنظیمات مورد استفاده، صدای باند باند یا پهن و غیره]. 

Shaip 3000 ساعت داده صوتی را در مقیاس جمع آوری کرد و در عین حال سطوح مطلوب کیفیت مورد نیاز برای آموزش فناوری گفتار برای پروژه های پیچیده را حفظ کرد. فرم رضایت صریح از هر یک از شرکت کنندگان گرفته شد.

1 جمع آوری داده ها