مطالعه موردی: هوش مصنوعی محاوره ای
بیش از 3 هزار ساعت داده جمعآوری، بخشبندی و رونویسی شده برای ساخت ASR به 8 زبان هندی
BHASHINI، پلتفرم ترجمه زبان مبتنی بر هوش مصنوعی هند، بخش مهمی از ابتکار هند دیجیتال است.
پلتفرم Bhashini که برای ارائه ابزارهای هوش مصنوعی (AI) و پردازش زبان طبیعی (NLP) به MSME ها، استارت آپ ها و نوآوران مستقل طراحی شده است، به عنوان یک منبع عمومی عمل می کند. هدف آن ترویج گنجاندن دیجیتال از طریق فعال کردن شهروندان هندی برای تعامل با ابتکارات دیجیتال این کشور به زبان مادری خود است.
علاوه بر این، هدف آن گسترش قابل توجهی در دسترس بودن محتوای اینترنتی به زبانهای هندی است. این امر به ویژه در حوزههای منافع عمومی مانند حکومتداری و سیاست، علم و فناوری و غیره مورد هدف قرار میگیرد. در نتیجه، این امر شهروندان را تشویق میکند تا از اینترنت به زبان خود استفاده کنند و مشارکت فعال آنها را ارتقا دهد.
مهار NLP برای فعال کردن اکوسیستم متنوعی از مشارکت کنندگان، نهادهای شریک و شهروندان به منظور فراتر رفتن از موانع زبانی، در نتیجه تضمین گنجاندن و توانمندسازی دیجیتال
راه حل دنیای واقعی
آزادسازی قدرت بومی سازی با داده ها
هند به پلتفرمی نیاز داشت که بر ایجاد مجموعه داده های چندزبانه و راه حل های فناوری زبان مبتنی بر هوش مصنوعی متمرکز شود تا بتواند خدمات دیجیتالی را به زبان های هندی ارائه دهد. برای راه اندازی این ابتکار، مؤسسه فناوری هند، مدرس (IIT Madras) با Shaip برای جمع آوری، بخش بندی و رونویسی مجموعه داده های زبان هندی برای ساخت مدل های گفتار چند زبانه همکاری کرد.
چالش ها
برای کمک به مشتری در نقشه راه گفتار فناوری گفتار برای زبانهای هندی، تیم باید حجم زیادی از دادههای آموزشی را جمعآوری، بخشبندی و رونویسی کند تا مدل هوش مصنوعی بسازد. الزامات حیاتی مشتری عبارت بودند از:
جمع آوری داده ها
- 3000 ساعت داده آموزشی به 8 زبان هندی با 4 گویش در هر زبان به دست آورید.
- برای هر زبان، تامین کننده Extempore Speech و
گفتار محاوره ای از گروه های سنی 18 تا 60 سال - از ترکیب متنوعی از گویندگان بر اساس سن، جنسیت، تحصیلات و لهجه اطمینان حاصل کنید
- از ترکیبی متنوع از محیط های ضبط مطابق با مشخصات اطمینان حاصل کنید.
- هر صدای ضبط شده باید حداقل 16 کیلوهرتز اما ترجیحاً 44 کیلوهرتز باشد
تقسیم بندی داده ها
- بخشهای گفتاری 15 ثانیهای ایجاد کنید و برای هر بلندگو، نوع صدا (سخنرانی، زمزمه، موسیقی، نویز)، چرخشها، گفتهها، و عبارات در یک مکالمه، صدا را به میلیثانیه مهر کنید.
- هر بخش را برای سیگنال صوتی مورد نظر خود با یک بالشتک 200-400 میلی ثانیه در شروع و پایان ایجاد کنید.
- برای همه بخش ها، اشیاء زیر باید پر شوند، یعنی زمان شروع، زمان پایان، شناسه بخش، سطح بلندی صدا، نوع صدا، کد زبان، شناسه بلندگو و غیره.
رونویسی داده ها
- دستورالعملهای رونویسی جزئیات در مورد نویسهها و نمادهای خاص، املا و دستور زبان، حروف بزرگ، اختصارات، انقباضات، حروف گفتاری فردی، اعداد، علائم نگارشی، کلمات اختصاری، ناهموار، گفتار، گفتار نامفهوم، زبانهای غیرهدف، غیرگفتار و غیره را دنبال کنید.
بررسی کیفیت و بازخورد
- همه ضبطها تحت ارزیابی کیفیت و اعتبارسنجی قرار میگیرند، فقط سخنرانی معتبر ارائه میشود
راه حل
با درک عمیق خود از هوش مصنوعی محاوره ای، به مشتری کمک کردیم تا داده ها را با تیمی از گردآورندگان خبره، زبان شناسان و حاشیه نویسان جمع آوری، بخش بندی و رونویسی کند تا مجموعه بزرگی از مجموعه داده های صوتی را به 8 زبان هندی بسازند.
دامنه کار برای Shaip شامل، اما نه محدود به به دست آوردن حجم زیادی از داده های آموزشی صوتی، بخش بندی صداهای ضبط شده به صورت چندگانه، رونویسی داده ها و ارائه فایل های JSON مربوطه حاوی فراداده [SpeakerID، سن، جنسیت، زبان، گویش،
زبان مادری، مدرک تحصیلی، شغل، دامنه، فرمت فایل، فرکانس، کانال، نوع صدا، تعداد بلندگوها، تعداد زبانهای خارجی، تنظیمات مورد استفاده، صدای باند باند یا پهن و غیره].
Shaip 3000 ساعت داده صوتی را در مقیاس جمع آوری کرد و در عین حال سطوح مطلوب کیفیت مورد نیاز برای آموزش فناوری گفتار برای پروژه های پیچیده را حفظ کرد. فرم رضایت صریح از هر یک از شرکت کنندگان گرفته شد.
1 جمع آوری داده ها