مترجم: حبیب الله علیخانی
منبع:راسخون
منبع:راسخون
فایل grammer
فایل گرامر دارای قالبی است که در Statenet documentation بهخصوص در grammar format documentation مشخص شده است.
فایل lexicon
این فایل دارای فرمت زیر است:
کلمهای است که شناسایی خواهد شد و نماد های استفاده شده برای نمایش چگونگی تلفظ کلمه است. در این آموزش، این نماد ها نماد های worldbet هستند، اگرچه هر نمادی میتواند استفاده شود.کلیدواژه "oneLevelExpansion 1;" این اطمینان را خواهد داد که اگر یک کلمه و آوا نماد یکسانی داشته باشند (به عنوان مثال کلمه I و آوای /I/) که گسترش یک کلمه به رشته خود از نمادهای آوایی تنها یک بار اتفاق خواهد افتاد. اگر این کلید واژهها استفاده نشوند ریسکی وجود دارد که گسترش چندین بار اتفاق خواهد افتاد و lexicon زیر:
فایل قسمتها، نشان میدهد هر آوا به چند قسمت بایستی تقسیم شود. (۱،۲،۳ یا r) و همچنین گروه بندی آوایی برای کلاستر های آوایی دسته گسترده و کشیدن یک یا چند آوا به داخل نماد های متفاوت را به عهده دارد. قالب این فایل به صورت زیر است:
;
;
...
;
$ = ... ;
$ = ... ;
...
$ = ... ;
map ;
map ;
...
map ;
که یک آوایی است در تلفظ ها که در فایل lexicon داده می شود. تعداد قسمتهایی است که آوا باید به آن تقسیم شود. مقادیر مشروع عبارتند از ۱،۲، ۳ و r. مقدار یک نام متغیر است که کلاستر گروه آوایی را شرح می دهد. برای این است که زمان مواجه با دادههای برچسب زده شده باید با آن جانشین شود. آوایی در دادههای برچسب زده شده است که باید به یک نماد جدید کشیده شود. یک استفاده معمولی از فرمان map نقشه کشی همه خاتمه های بی صدا به نماد uc و همه خاتمه های صدا دار به نماد vc است.
فایل spec
فایل spec قالب شرح داده شده در Statenet documentation, مخصوصاً recognizer spec format documentation را دارد.
فایل files
فایل files شامل یک لیست ASCII از فایلهایی که در پارتیشن داده شده استفاده خواهد کرد، است. این فایل قالب زیر را دارد:
...
که:
نام فایل شکل موج است
نام فایل phn وابسته به فایل شکل موج است.
نام فایل cat (شامل اطلاعات همتراز سطح دسته)وابسته به فایل شکل موج است.
هر دو، (a)نام فایل متنی وابسته به فایل شکل موج یا (b) رونوشت متنی فایل شکل موج احاطه شده با دو علامت نقل قول (“) (برای مثال "one seven two three")
اگر یک فایل موجود نباشد(و در حالت آخرین رشته اگر رونوشت متنی موجود نباشد) کلید واژه NULL برای نمایش اینکه فایلی (یا رونوشت)وجود ندارد مورد استفاده قرار می گیرد. بنابراین، این فایل همیشه چهار رشته بر خط خواهد داشت.
فایل dur
فایل dur شامل طول زمان کمینه و بیشینه برای هر دسته است. این اطلاعات توسط جستجوی ویتربی، زمان انجام تشخیص، به منظور جلوگیری از درج کلمات بسیارکوتاه یا بسیار بلند مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و دارای قالب زیر است:
کمترین مدت زمان به میلی ثانیه از دسته مشخص شده است.
بیشترین مدت زمان به میلی ثانیه از دسته مشخص شده است.
فایل counts
فایل counts شامل تعداد سخنان و زمان کل (به میلی ثانیه) برای هر دسته است. این اطلاعات توسط revise_desc.tcl به منظور تعیین دسته هایی که تعداد کمتری مثال دارند و ممکن است نیاز به ارتباط به سایر دسته ها داشته باشند، مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و قالب زیر را دارد:
یک دسته زیرآوایی وابسته به زمینه شناخته شده توسط شبکه عصبی است.
تعداد سخنان یا بخشها از دسته مشخص شده است. (مستقل از اینکه هر بخش چقدر بلند است)
فایل گرامر دارای قالبی است که در Statenet documentation بهخصوص در grammar format documentation مشخص شده است.
فایل lexicon
این فایل دارای فرمت زیر است:
oneLevelExpansion 1;
= ;
= ;
= ;
...
= ;
که ...
I = aI ;
am = @ m ;
sitting = s I tc th I N ;
تلفظ زیر را ارایه خواهد داد:
word "I" has pronunciation /aI/
word "am" has pronunciation /@ m/
word "sitting" has pronunciation /s aI tc th aI N/
فایل partsam = @ m ;
sitting = s I tc th I N ;
تلفظ زیر را ارایه خواهد داد:
word "I" has pronunciation /aI/
word "am" has pronunciation /@ m/
word "sitting" has pronunciation /s aI tc th aI N/
فایل قسمتها، نشان میدهد هر آوا به چند قسمت بایستی تقسیم شود. (۱،۲،۳ یا r) و همچنین گروه بندی آوایی برای کلاستر های آوایی دسته گسترده و کشیدن یک یا چند آوا به داخل نماد های متفاوت را به عهده دارد. قالب این فایل به صورت زیر است:
...
$
$
...
$
map
map
...
map
فایل spec
فایل spec قالب شرح داده شده در Statenet documentation, مخصوصاً recognizer spec format documentation را دارد.
فایل files
فایل files شامل یک لیست ASCII از فایلهایی که در پارتیشن داده شده استفاده خواهد کرد، است. این فایل قالب زیر را دارد:
...
نام فایل شکل موج است
نام فایل phn وابسته به فایل شکل موج است.
نام فایل cat (شامل اطلاعات همتراز سطح دسته)وابسته به فایل شکل موج است.
هر دو، (a)نام فایل متنی وابسته به فایل شکل موج یا (b) رونوشت متنی فایل شکل موج احاطه شده با دو علامت نقل قول (“) (برای مثال "one seven two three")
اگر یک فایل موجود نباشد(و در حالت آخرین رشته اگر رونوشت متنی موجود نباشد) کلید واژه NULL برای نمایش اینکه فایلی (یا رونوشت)وجود ندارد مورد استفاده قرار می گیرد. بنابراین، این فایل همیشه چهار رشته بر خط خواهد داشت.
فایل dur
فایل dur شامل طول زمان کمینه و بیشینه برای هر دسته است. این اطلاعات توسط جستجوی ویتربی، زمان انجام تشخیص، به منظور جلوگیری از درج کلمات بسیارکوتاه یا بسیار بلند مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و دارای قالب زیر است:
Category MinDur MaxDur
...
که:
یک دسته زیرآوایی وابسته به زمینه شناخته شده توسط شبکه عصبی است....
که:
کمترین مدت زمان به میلی ثانیه از دسته مشخص شده است.
بیشترین مدت زمان به میلی ثانیه از دسته مشخص شده است.
فایل counts
فایل counts شامل تعداد سخنان و زمان کل (به میلی ثانیه) برای هر دسته است. این اطلاعات توسط revise_desc.tcl به منظور تعیین دسته هایی که تعداد کمتری مثال دارند و ممکن است نیاز به ارتباط به سایر دسته ها داشته باشند، مورد استفاده قرار می گیرد. این فایل توسط gen_catfiles.tcl ایجاد شده و قالب زیر را دارد:
Category Occur TotalTime(msec)
...
که:...
یک دسته زیرآوایی وابسته به زمینه شناخته شده توسط شبکه عصبی است.
تعداد سخنان یا بخشها از دسته مشخص شده است. (مستقل از اینکه هر بخش چقدر بلند است)