شبکه عصبی مارکوف (HMM/ANN) در تشخیص اتوماتیک گفتار (ASR) (4)

فایل گرامر دارای قالبی است که در Statenet documentation به‌خصوص در grammar format documentation مشخص شده است.

چهارشنبه، 5 خرداد 1395

تخمین زمان مطالعه:

پدیدآورنده: علی اکبر مظاهری

معرفی نرم‌افزار

موارد بیشتر برای شما

مترجم: حبیب الله علیخانی
منبع:راسخون

فایل grammer
فایل گرامر دارای قالبی است که در Statenet documentation به‌خصوص در grammar format documentation مشخص شده است.
فایل lexicon
این فایل دارای فرمت زیر است:

oneLevelExpansion 1;
= ;
= ;
= ;
...
= ;

که کلمه‌ای است که شناسایی خواهد شد و نماد های استفاده شده برای نمایش چگونگی تلفظ کلمه است. در این آموزش،‌ این نماد ها نماد های worldbet هستند، اگرچه هر نمادی می‌تواند استفاده شود.کلیدواژه "oneLevelExpansion 1;" این اطمینان را خواهد داد که اگر یک کلمه و آوا نماد یکسانی داشته باشند (به عنوان مثال کلمه I و آوای /I/) که گسترش یک کلمه به رشته خود از نمادهای آوایی تنها یک بار اتفاق خواهد افتاد. اگر این کلید واژه‌ها استفاده نشوند ریسکی وجود دارد که گسترش چندین بار اتفاق خواهد افتاد و lexicon زیر:

I = aI ;
am = @ m ;
sitting = s I tc th I N ;
تلفظ زیر را ارایه خواهد داد:
word "I" has pronunciation /aI/
word "am" has pronunciation /@ m/
word "sitting" has pronunciation /s aI tc th aI N/

فایل parts
فایل قسمت‌ها، نشان می‌دهد هر آوا به چند قسمت بایستی تقسیم شود. (۱،۲،۳ یا r) و همچنین گروه بندی آوایی برای کلاستر های آوایی دسته گسترده و کشیدن یک یا چند آوا به داخل نماد های متفاوت را به عهده دارد. قالب این فایل به صورت زیر است:

;
;
...
;
$ = ... ;
$ = ... ;
...
$ = ... ;
map ;
map ;
...
map ;

که یک آوایی است در تلفظ ها که در فایل lexicon داده می شود. تعداد قسمت‌هایی است که آوا باید به آن تقسیم شود. مقادیر مشروع عبارتند از ۱،‌۲، ۳ و r. مقدار یک نام متغیر است که کلاستر گروه آوایی را شرح می دهد. برای این است که زمان مواجه با داده‌های برچسب زده شده باید با آن جانشین شود. آوایی در داده‌های برچسب زده شده است که باید به یک نماد جدید کشیده شود. یک استفاده معمولی از فرمان map نقشه کشی همه خاتمه های بی صدا به نماد uc و همه خاتمه های صدا دار به نماد vc است.
فایل spec
فایل spec قالب شرح داده شده در Statenet documentation, مخصوصاً recognizer spec format documentation را دارد.
فایل files
فایل files شامل یک لیست ASCII از فایل‌هایی که در پارتیشن داده شده استفاده خواهد کرد، است. این فایل قالب زیر را دارد:

...

که:

نام فایل شکل موج است

نام فایل phn وابسته به فایل شکل موج است.

نام فایل cat (شامل اطلاعات همتراز سطح دسته)وابسته به فایل شکل موج است.

هر دو، (a)نام فایل متنی وابسته به فایل شکل موج یا (b) رونوشت متنی فایل شکل موج احاطه شده با دو علامت نقل قول (“) (برای مثال "one seven two three")
اگر یک فایل موجود نباشد(و در حالت آخرین رشته اگر رونوشت متنی موجود نباشد) کلید واژه NULL برای نمایش اینکه فایلی (یا رونوشت)وجود ندارد مورد استفاده قرار می گیرد. بنابراین، این فایل همیشه چهار رشته بر خط خواهد داشت.
فایل dur
فایل dur شامل طول زمان کمینه و بیشینه برای هر دسته است. این اطلاعات توسط جستجوی ویتربی، زمان انجام تشخیص، به منظور جلوگیری از درج کلمات بسیارکوتاه یا بسیار بلند مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و دارای قالب زیر است:

Category MinDur MaxDur

...

که:

یک دسته زیرآوایی وابسته به زمینه شناخته شده توسط شبکه عصبی است.

کمترین مدت زمان به میلی ثانیه از دسته مشخص شده است.

بیشترین مدت زمان به میلی ثانیه از دسته مشخص شده است.
فایل counts
فایل counts شامل تعداد سخنان و زمان کل (به میلی ثانیه) برای هر دسته است. این اطلاعات توسط revise_desc.tcl به منظور تعیین دسته هایی که تعداد کمتری مثال‌ دارند و ممکن است نیاز به ارتباط به سایر دسته ها داشته باشند، مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و قالب زیر را دارد:

Category Occur TotalTime(msec)

...

که:

یک دسته زیرآوایی وابسته به زمینه شناخته شده توسط شبکه عصبی است.

تعداد سخنان یا بخش‌ها از دسته مشخص شده است. (مستقل از اینکه هر بخش چقدر بلند است)

مقدار کل زمان به میلی ثانیه برای مثال‌هایی که در دسته وجود دارند.
فایل examples
فایل examples یک فایل ASCII است که محل (نام فایل و تعداد فریم) از هر دسته را که آموزش داده خواهد شد را شرح می دهد. این فایل توسط pick_examples.tcl ایجاد شده و توسط pick_examples.tcl خوانده می شود. قالب این فایل به صورت زیر است:

...
-1 -1

...
که نام فایل است، شامل مسیر برای یک شکل موج. < frame> یک فریم خاص در داخل شکل موج است. این یک مقدار صحیح است. < category> یک مقدار عددی از دسته است که در فریم مرتبط رخ می دهد. < category> یک مقدار صحیح است که مابین نام دسته و مقادیر عددی شان کشیده می‌شود واز فایل spec تعیین می شود.
فایل vec
فایل vec یک فایل دودویی است که شامل بردار های ویژگی برای آموزش و اعداد دسته وابسته به ویژگی‌های داده شده است. فرمت آن به صورت زیر است:

...

که:

یک عدد صحیح ۴ بایتی شامل شماره بردار ها در فایل vec است. یک بردار شامل یک دسته عدد و ویژگی‌های مرتبط به آن است.

یک عدد صحیح ۴ بایتی شامل مقادیر عددی هر دسته که ویژگی‌های داده شده را نشان می دهد. این مانند همان عدد خروجی گره‌های مقصد از شبکه عصبی است.

یک آرایه ای از مقادیر شناور که شامل ویژگی‌های استفاده شده در طول آموزش است.اندازه پیش‌فرض بردار ویژگی ۱۳۰ ویژگی است.(ضریب13MFCC به اضافه مقادیر دلتای آن‌ها با یک پنجره زمینه ۵ فریمی)، بنابراین اندازه پیش‌فرض مقدار ۵۲۰ بایت است.
فایل‌های شبکه عصبی
فایل‌های شبکه عصبی توسط nntrain.exe تولید می شود. هر فایل شبکه عصبی شامل معماری شبکه عصبی و مقادیر بار شبکه عصبی است. این فایل‌ها فایل‌های دودویی هستند که هر مقدار شامل ۳۲ بیت در شبکه TCP/IP است. بسط این فایل‌ها شماره هایی هستند که از عدد ۰ شروع شده و هر عدد یک تکراراز فرآیند آموزش را نشان می‌دهد. قالب به صورت زیر است:

...

که:

تکرار آموزش ای است که در آن این فایل شبکه ایجاد شد. (نمایش داده شده به عنوان عدد بی علامت)

تعداد لایه ها در شبکه (نمایش داده شده به عنوان عدد بی علامت). مقدار معمول ۳ است.

اندازه یک لایه از گره‌ها (نمایش داده شده به عنوان عدد بی علامت)

آرایه ای از مقادیر بار نشان داده شده به عنوان شناور (زمان تولید توسط nntrain یا hnntrain) یا جفت‌ها (زمان تولید توسط train_nnet.tcl)
فایل summery
فایل summery شامل یک خلاصه از کارایی در تکرار های متفاوت از آموزش شبکه است. این فایل توسط select_best.tcl ایجاد شده و عمل‌کرد تشخیص را بر اساس شناسایی یک مجموعه‌ای از فایل‌های شکل موج در هر دو مجموعه آزمون و توسعه، میدهد. فرمت به صورت:

Itr #Snt #Words Sub% Ins% Del% WrdAcc% SntCorr
_{% % % % %

_{% % % % %

...

_{% % % % %

Best results (, ) with network}}}

که:

یک تکرار است برای اینکه کدام نتایج داده می شود.

تعداد جملات ارزیابی شده (فایل های شکل موج) است

تعداد کلمات ارزیابی شده است.
_{درصد خطاهای جانشینی است.

درصد خطاهای درجی است.

درصد خطاهای حذفی است.

دقت کلمه از تکرار شبکه داده شده بر روی مجموعه فایل‌های شکل موج است. به صورت (100% - (_{++) محاسبه شده است.

دقت جمله (فایل شکل موج) تکرار شبکه داده شده بر روی مجموعه فایل های شکل موج است. این نسبت تعداد فایل‌های شکل موج به درستی شناسایی شده تقسیم بر تعداد کل شکل موج‌ها در ارزیابی است.

شبکه ای است با بهترین عمل‌کرد سطح کلمه.

فایل‌های ali

فایل‌های ali توسط select_best.tcl ایجاد شده و شامل نتایج جمله به جمله تشخیص است. بسط یک فایل ali یک عددی است که وابسته به تکرار شبکه ای که ارزیابی شده، می باشد. این فایل‌ها می‌توانند توسط اسکریپت eval_ali.tcl ارزیابی شود. قالب، یک لیست ASCII از کلمات درست در یک سخن، کلمات شناخته شده در سخن و خط خالی است به صورت زیر:

...

...

...

...

...

...

...
اگر یک کلمه به صورت اشتباه شناخته شود،‌سپس هر دو کلمه درست و کلمه شناخنه شده توسط علامت (*) ستاره احاطه می شوند. اگر یک درج یا حذف رخ دهد، هم ترازی کلمات توسط استفاده از علامت پوند (#) برای نشان دادن کلمات گمشده محفوظ نگه داشته می شود.

6. اسکریپت و نحوه استفاده از برنامه

در توضیحات زیر آیتم ها در براکت زاویه <> بایستی مقدار مناسب به جای توضیحات داشته باشند و آیتم ها در براکت [] اختیاری هستند.

asr.tcl [-garbage ]

فایلی است که شامل گرامر استفاده شده در تشخیص است.

فایلی است که شامل lexicon کلمه ها و تلفظاتشان است.

فایل مشخصات تشخیص است.

فایلی است که شامل بار های شبکه عصبی استفاده شده در طول طبقه بندی آواها می باشد.

یک فایلی است که شامل شکل موج تکی برای شناسایی است.

خروجی تشخیص در سطح کلمه همتراز زمانی است.

خروجی تشخیص در سطح آوای همتراز زمانی است.

خروجی تشخیص در سطح دسته آوایی همتراز زمانی است.

-garbage

تنظیم مقدار ذباله به N (پیش فرض ۵ است)

checkvec <.vec file>

<.vec file>

بردار فایلی است که توسط gen_examples.tcl. ایجاد می شود.

fa.tcl {w,p,c} [-g ]

فایلی است که شامل بار های شبکه عصبی استفاده شده در طول طبقه بندی آواها می باشد.

فایل مشخصات تشخیص است.

فایلی است که شامل lexicon کلمه ها و تلفظاتشان است.

یک فایلی است که شامل شکل موج تکی برای شناسایی است.

فایل اسکی است که شامل کلمات در شکل موج است.

{w, p, c}

w برای مشخص کردن خروجی سطح کلمه، p برای مشخص کردن خروجی سطح آوا، , c برای مشخص کردن خروجی سطح دسته آوایی است.

خروجی همتراز اجباری که کلمات همتراز زمانی، آواها یا دسته های آوایی وابسته به انتخاب قبلی است، خواهد بود.

-g

تنظیم مقدار ذباله به N (پیش فرض ۵ است)

find_dur.tcl <.info_file> <.dur_file> <.count_file>

<.info_file>

فایل info برای این وظیفه است.

نام فایل corpora است.

<.dur_file>

فایل duration ایجاد شده توسط جستجوی کامل cat_path که مشخص شده در <.info_file> برای مدت زمان بیشینه و کمینه.

<.count_file>

یک فایل counts ایجاد شده توسط جستجوی کامل cat_path که در برای سخنان هر دسته مشخص می شود.

find_files.tcl <.info_file>

<.info_file>

فایل info برای این وظیفه است.

نام فایل corpora است.

خروجی در فایل‌های .. نوشته می‌شود که نام پایه‌ای است که در فایل info داده شده است. پارتیشنی است که در فایل info داده شده و ، نوشته مشخص شده در فایل info است.

gen_catfiles.tcl <.info_file> <.parts_file> <.spec_file>

<.info_file>

فایل info برای این وظیفه است.

<.parts_file>

فایل parts برای این وظیفه است.

<.spec_file>

فایل spec برای این وظیفه است.

فایل corpora است.

یک خروجی فایل شامل مدت زمان هر دسته است.

یک خروجی فایل شامل تعداد هر دسته است.

فایل‌های دسته ایجاد شده در محل هایی گذاشته می‌شوند که در فایل info با رشته cat_path مشخص می شوند.

gen_spec.tcl <.info_file> <.grammar_file> <.lexicon_file> <.parts_file> <.spec_file> [-start ]

<.info_file>

فایل info برای این وظیفه است.

<.grammar_file>

فایل grammer برای این وظیفه است.

<.lexicon_file>

فایل lexicon برای این وظیفه است.

فایل corpora است.

<.parts_file>

فایل parts برای این وظیفه است.

<.spec_file>

یک خروجی فایل spec ایجاد شده است.

gen_examples.tcl <.info_file> <.spec_file> <.examples_file> <.vec_file>

<.info_file>

فایل info برای این وظیفه است.

<.spec_file>

فایل spec برای این وظیفه است.

<.examples_file>

فایل examples برای این وظیفه است.

<.vec file>

یک خروجی فایل vec ایجاد شده است.

اگر فایل vec. موجود باشد، gen_examples.tcl فایل موجود را دوباره نویسی نمی‌کند اما پیامی را چاپ می‌کند که به کاربر می‌گوید که فایل موجود را به صورت دستی حذف کند و سپس اسکریپت را دوباره اجرا می کند. این از دوباره نویسی تصادفی فایل‌های vec. جلوگیری می کند.

nntrain.exe []

[] is one of:

-i count frequency with which to dump iterations

-l balance category frequency with negative penalty

-c iter continue training from iteration c

-b size number of vectors in memory

-n weight weight for negative training

-t tau learn rate annealing factor

-r rate learn rate [0.050000]

-m momentum default is 0.0

-a ... architecture of network

-sn seed random seed for setting initial weight values

-sv seed random seed for order of vector evaluation

-f basename basename for output weights files (default nnet)

تعداد تکرار ها برای آموزش (معمولاً ۳۰ تا ۴۵)

فایل vector برای آموزش

pick_examples.tcl

<.info_file>

فایل info برای این وظیفه است.

فایل corpora برای این وظیفه است.

<.spec_file>

فایل spec برای این وظیفه است.

<.examples_file>

یک خروجی فایل examples ایجاد شده است.

این اسکریپت یک فایل examples ایجاد خواهد کرد که شامل همه محل های فریم های آموزش دیده است. این فایل سپس به عنوان ورودی gen_examples.tcl استفاده می شود.

revise_spec.tcl [-min ]

فایل spec که ورودی است و هیچ اطلاعات مدت زمان و ارتباطی ندارد.

فایل duration ایجاد شده توسط gen_catfiles.tcl

فایل counts ایجاد شده توسط gen_catfiles.tcl

فایل spec که بر اساس فایل‌های spec ورودی، مدت زمان، تعداد و اطلاعات ارتباطی کاربر ایجاد می شود.

کمترین عدد از سخنان یک دسته برای آن‌هایی که به صورت بالقوه در ارتباط نیستند.

select_best.tcl < file of test files> [-garbage ] [-begin ] [-end ] [-only ] [-ali]

نام پایه برای شبکه‌های عصبی

فایلی است که شامل آزمایش نام فایل است. این فایل معمولاً توسط find_files.tcl ایجاد می شود.

فایل grammer برای این وظیفه است.

فایل lexicon برای این وظیفه است.

فایل spec برای این شناساگر است.

فایلی است که ایجاد شده و شامل یک خلاصه از همه ارزیابی هاست.

-garbage

تنظیم مقدار ذباله به N (پیش فرض ۵ است)

-begin

شروع ارزیابی از تکرار B شبکه

-end

پایان ارزیابی بعد از تکرار E شبکه

-only

فقط ارزیابی تکرار O (معادل شروع از O و پایان در O)

-ali

نوشتن فایل‌های هم تراز با استفاده از نام پایه . مقدار پیش‌فرض wrdalign_ است.

استفاده از مطالب این مقاله با ذکر منبع راسخون، بلامانع می باشد.}}