شبکه عصبی مارکوف (HMM/ANN) در تشخیص اتوماتیک گفتار (ASR) (4)

فایل گرامر دارای قالبی است که در Statenet documentation به‌خصوص در grammar format documentation مشخص شده است.
چهارشنبه، 5 خرداد 1395
تخمین زمان مطالعه:
پدیدآورنده: علی اکبر مظاهری
موارد بیشتر برای شما
شبکه عصبی مارکوف (HMM/ANN) در تشخیص اتوماتیک گفتار (ASR) (4)
  شبکه عصبی مارکوف (HMM/ANN) در تشخیص اتوماتیک گفتار (ASR) (4)

 

مترجم: حبیب الله علیخانی
منبع:راسخون




 
فایل grammer
فایل گرامر دارای قالبی است که در Statenet documentation به‌خصوص در grammar format documentation مشخص شده است.
فایل lexicon
این فایل دارای فرمت زیر است:
oneLevelExpansion 1;
= ;
= ;
= ;
...
= ;
که کلمه‌ای است که شناسایی خواهد شد و نماد های استفاده شده برای نمایش چگونگی تلفظ کلمه است. در این آموزش،‌ این نماد ها نماد های worldbet هستند، اگرچه هر نمادی می‌تواند استفاده شود.کلیدواژه "oneLevelExpansion 1;" این اطمینان را خواهد داد که اگر یک کلمه و آوا نماد یکسانی داشته باشند (به عنوان مثال کلمه I و آوای /I/) که گسترش یک کلمه به رشته خود از نمادهای آوایی تنها یک بار اتفاق خواهد افتاد. اگر این کلید واژه‌ها استفاده نشوند ریسکی وجود دارد که گسترش چندین بار اتفاق خواهد افتاد و lexicon زیر:
I = aI ;
am = @ m ;
sitting = s I tc th I N ;
تلفظ زیر را ارایه خواهد داد:
word "I" has pronunciation /aI/
word "am" has pronunciation /@ m/
word "sitting" has pronunciation /s aI tc th aI N/
فایل parts
فایل قسمت‌ها، نشان می‌دهد هر آوا به چند قسمت بایستی تقسیم شود. (۱،۲،۳ یا r) و همچنین گروه بندی آوایی برای کلاستر های آوایی دسته گسترده و کشیدن یک یا چند آوا به داخل نماد های متفاوت را به عهده دارد. قالب این فایل به صورت زیر است:
;
;
...
;
$ = ... ;
$ = ... ;
...
$ = ... ;
map ;
map ;
...
map ;
که یک آوایی است در تلفظ ها که در فایل lexicon داده می شود. تعداد قسمت‌هایی است که آوا باید به آن تقسیم شود. مقادیر مشروع عبارتند از ۱،‌۲، ۳ و r. مقدار یک نام متغیر است که کلاستر گروه آوایی را شرح می دهد. برای این است که زمان مواجه با داده‌های برچسب زده شده باید با آن جانشین شود. آوایی در داده‌های برچسب زده شده است که باید به یک نماد جدید کشیده شود. یک استفاده معمولی از فرمان map نقشه کشی همه خاتمه های بی صدا به نماد uc و همه خاتمه های صدا دار به نماد vc است.
فایل spec
فایل spec قالب شرح داده شده در Statenet documentation, مخصوصاً recognizer spec format documentation را دارد.
فایل files
فایل files شامل یک لیست ASCII از فایل‌هایی که در پارتیشن داده شده استفاده خواهد کرد، است. این فایل قالب زیر را دارد:


...
که:

نام فایل شکل موج است

نام فایل phn وابسته به فایل شکل موج است.

نام فایل cat (شامل اطلاعات همتراز سطح دسته)وابسته به فایل شکل موج است.

هر دو، (a)نام فایل متنی وابسته به فایل شکل موج یا (b) رونوشت متنی فایل شکل موج احاطه شده با دو علامت نقل قول (“) (برای مثال "one seven two three")
اگر یک فایل موجود نباشد(و در حالت آخرین رشته اگر رونوشت متنی موجود نباشد) کلید واژه NULL برای نمایش اینکه فایلی (یا رونوشت)وجود ندارد مورد استفاده قرار می گیرد. بنابراین، این فایل همیشه چهار رشته بر خط خواهد داشت.
فایل dur
فایل dur شامل طول زمان کمینه و بیشینه برای هر دسته است. این اطلاعات توسط جستجوی ویتربی، زمان انجام تشخیص، به منظور جلوگیری از درج کلمات بسیارکوتاه یا بسیار بلند مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و دارای قالب زیر است:
Category MinDur MaxDur


...

که:
یک دسته زیرآوایی وابسته به زمینه شناخته شده توسط شبکه عصبی است.

کمترین مدت زمان به میلی ثانیه از دسته مشخص شده است.

بیشترین مدت زمان به میلی ثانیه از دسته مشخص شده است.
فایل counts
فایل counts شامل تعداد سخنان و زمان کل (به میلی ثانیه) برای هر دسته است. این اطلاعات توسط revise_desc.tcl به منظور تعیین دسته هایی که تعداد کمتری مثال‌ دارند و ممکن است نیاز به ارتباط به سایر دسته ها داشته باشند، مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و قالب زیر را دارد:
Category Occur TotalTime(msec)


...
که:

یک دسته زیرآوایی وابسته به زمینه شناخته شده توسط شبکه عصبی است.

تعداد سخنان یا بخش‌ها از دسته مشخص شده است. (مستقل از اینکه هر بخش چقدر بلند است)

 



مقالات مرتبط
ارسال نظر
با تشکر، نظر شما پس از بررسی و تایید در سایت قرار خواهد گرفت.
متاسفانه در برقراری ارتباط خطایی رخ داده. لطفاً دوباره تلاش کنید.
مقالات مرتبط