شبکه عصبی مارکوف (HMM/ANN) در تشخیص اتوماتیک گفتار (ASR) (3)

چهارشنبه، 5 خرداد 1395

تخمین زمان مطالعه:

پدیدآورنده: علی اکبر مظاهری

مترجم: حبیب الله علیخانی
منبع:راسخون

[گام ۱۱] اجرای pick_examples.tcl برای انتخاب فریم های آموزش از فایل‌های ایجاد شده توسط gen_catfiles.tcl. فایل های ورودی digit.train.info, corpora.txt, digit.train.spec, وdigit.train.numbers.files. هستند. خروجی این اسکریپت فایل digit.train.examples است که شامل لیست اسکی ASCII فایل‌ها، فریم های استفاده شده در هر فایل و دسته های وابسته به این فریم ها هستند.

pick_examples.tcl digit.train.info corpora.txt digit.train.spec digit.train.examples
Basename: digit
Partition: train
Corpus: numbers
cat_ext: cat
txt_ext: txt
format: NU-([0-9]+)\.[A-Za-z0-9_]+
lexicon: digit.lexicon
partition: {expr $ID % 5} {0 1 2}
cat_path: numbers_train
txt_path: W:/digit/tutorial/tutorial/data/txtfiles
id: regexp $format $filename filematch ID
remap: remap_tutorial.tcl
phn_ext: phn
filter: 1+1
wav_ext: wav
name: numbers
phn_path: W:/digit/tutorial/tutorial/data/phnfiles
want: 200
wav_path: W:/digit/tutorial/tutorial/data/speechfiles
require: wpt
digit.train.numbers.files, want=200, min_want=100
--------- numbers --------
$alv<& 122
&>$sil 116
<.pau> 200
$den<9r 200
$fnt_l<9r 200
<9r> 200
(etc.)
$alv
$fnt_l
$ret_l
200
z>$fnt_r 200
Selected from a total of 552 files
Randomizing order of frames...
Writing output file...
Done

[گام ۱۲] اجرای gen_examples.tcl برای محاسبه ویژگی‌های آکوستیک برای همه فریم ها داده شده در digit.train.examples. فایل‌های ورودی digit.train.info, digit.train.spec, وdigit.train.examples هستند. ویژگی‌های محاسبه شده و مقادیر دسته مقصد اختصاص یافته در فایل خروجی باینری digit.train.vec ذخیره می شود. توجه داشته باشید اگر شما بخواهید از ویژگی‌هایی که از ویژگی‌های استاندارد متفاوت هستند استفاده کنید،‌شما می‌توانید یک کد tcl برای ایجاد یک ویژگی جدید بنویسید. محل کد شما می‌تواند در فایل info با استفاده از رشته های featuresURI و contextURI مشخص شود. همچنین توضیحات قالب فایل برداردر بخش ۵ ممکن است مورد علاقه باشد.

gen_examples.tcl digit.train.info digit.train.spec digit.train.examples digit.train.vec
Basename: digit
Partition: train
Corpus: numbers
lexicon: digit.lexicon
partition: {expr $ID % 5} {0 1 2}
cat_path: numbers_train
remap: remap_tutorial.tcl
filter: 1+1
name: numbers
want: 200
require: wpt
Sampling freq: 8000
Frame size: 10
0: W:/digit/tutorial/tutorial/data/speechfiles/16/NU-1641.other1.wav
1: W:/digit/tutorial/tutorial/data/speechfiles/10/NU-1035.other1.wav
2: W:/digit/tutorial/tutorial/data/speechfiles/17/NU-1792.zipcode.wav
3: W:/digit/tutorial/tutorial/data/speechfiles/5/NU-591.streetaddr.wav
4: W:/digit/tutorial/tutorial/data/speechfiles/2/NU-237.streetaddr.wav
5: W:/digit/tutorial/tutorial/data/speechfiles/11/NU-1116.streetaddr.wav
(etc)

[گام ۱۳] اجرای checkvec.exe برای اطمینان از اینکه فایل بردار ایجاد شده قالب درستی داشته باشد و هر دسته‌ حداقل یک مثال برای آموزش داشته باشد. عدد ها در ستون چپ مقادیری هستند که وابسته به هر دسته (از ۱ تا تعداد کل دسته ها) و عدد ها در ستون سمت راست تعداد مثال‌هایی برای هر دسته هستند. فایل ورودی digit.train.vec است. تنها خروجی برای چک کردن کاربر در صفحه نمایش می‌آید اما ممکن است به یک فایل با استفاده از "> checkvec_output.txt" در پایان فرمان Dos راه یابند.

checkvec.exe digit.train.vec
1: 122
2: 116
3: 199
4: 200
5: 200
6: 200
(etc)
123: 200
124: 151
125: 26
126: 34
127: 200
128: 200
20703 vectors with 130 features

[گام ۱۴] اجرای nntrain برای آموزش شبکه عصبی با فایل بردار digit.train.vec. این برنامه یک فایل بار (weights) در هر تکرار ایجاد می کند. ما بهترین فایل بار را بعد از آموزش ۳۰ تکرار انتخاب خواهیم کرد. انتخاب l- نشان می‌دهد که پنالتی منفی برای جبران تفاوت تعداد مثال‌ها در دسته تنظیم خواهد شد.sn- 88 و -sv 88 اعداد تصادفی هستند.f- digitnet نام پایه digitnet برای فایل‌های خروجی را مشخص می کنند. a- 3 130 200 128 معماری شبکه را مشخص می کنند. ۳ لایه، با ۱۳۰ گره در لایه اول، ۲۰۰ گره در لایه پنهان و ۱۲۸ گره در لایه خروجی. مقدار ۳۰ آموزش را برای ۳۰ تکرار مشخص می کند. و پارامتر آخر فایل بردار استفاده شده برای آموزش است. فایل‌های خروجی در این حالت diginet.0 ، diginet.1، diginet.2 و … diginet.30 نامیده می‌شود که یک فایل خروجی برای هر تکرار نشان می دهد.

nntrain -l -sn 88 -sv 88 -f digitnet -a 3 130 200 128 30 digit.train.vec
creating net with seed 88
negpen 0 is 0.752830
negpen 1 is 0.715597
negpen 2 is 1.000000
negpen 3 is 1.000000
negpen 4 is 1.000000
negpen 5 is 1.000000
(etc)
negpen 125 is 0.208912
negpen 126 is 1.000000
negpen 127 is 1.000000
3 layers: 131 200 128
learning rate 0.050000
momentum 0.000000
negative weight 1.000000
training file digit.train.vec
numvec: 20703; tau: 103515.000000
vectors chosen in 1 blocks of 20703 with seed 88
time:8 learn_rate 0.041667; total error is 74753.695313
time:9 learn_rate 0.035714; total error is 56642.347656
time:8 learn_rate 0.031250; total error is 50545.117188
time:9 learn_rate 0.027778; total error is 46603.933594
time:9 learn_rate 0.025000; total error is 43362.011719
time:8 learn_rate 0.022727; total error is 40807.339844
time:9 learn_rate 0.020833; total error is 38606.566406
time:9 learn_rate 0.019231; total error is 36725.898438
(etc)

نکته: برای مشخص کردن معماری، توجه داشته باشید که تعداد گره‌ها در لایه اول همیشه برای مجموعه ویژگی‌های استاندارد ۱۳۰ خواهد بود. تعداد گره‌های پنهان توسط کاربر تصمیم گیری می‌شود اما ۲۰۰ یک عدد منطقی است. تعداد گره‌های خروجی (در این حالت ۱۲۸) بایستی با بزرگترین مقدار در ستون سمت چپ از خروجی checkvec.exe یکی باشد. عدد ۱۲۸ در این مثال ممکن است وابسته به تعداد حالت‌های ارتباط داده شده و اطلاعات فایل‌های grammer. و lexicon. و parts. تغییر داده شود .
تنها ورودی فایل nntrain.exe فایل بردار است. فایل‌های خروجی فایل‌های بار شبکه عصبی برای هر تکرار است.(نام پیش‌فرض nnet.X است که X یک عدد صحیح است که از صفر تا تعداد تکرار ها است)
[گام ۱۵] اجرای select_best.tcl برای ارزیابی کارایی هر تکرار (فایل بار) روی داده‌های مجموعه توسعه. این اسکریپت ممکن است زمان طولانی بگیرد مخصوصاً اگر تعداد زیادی فایل در مجموعه توسعه باشد. این اسکریپت دو اسکریپت دیگر را فراخوانی می کند،" asr_multi.tcl" و "eval_results.tcl" که در همین دایرکتوری select_best.tcl هستند یعنی ...\CSLU\Toolkit\2.0\script\training_1.0. فایل های ورودی فایل‌های شبکه عصبی هستند که توسط nntrain.exe ،ایجاد می شوند.
فایل digit.dev.numbers.files و همه شکل موج‌ها و فایل‌های متنی مشخص شده در فایل digit.dev.numbers.files، فایل grammer، فایل lexicon و فایل spec ایجاد می شوند. فایل‌های خروجی فایل‌های ali هستند (با نام پایه wrdalign_dig itnet در این مثال) و یک فایل summery. فایل summery کارایی هر تکرار را ،(ستون Wrdacc% دقت سطح کلمه را نشان می‌دهد و ستون sntcorr درصدجمله بدرستی شناسایی شده را (توالی رقمی کل در این حالت ) نشان میدهد) به خوبی نتایج بهترین تکرار ها نشان می دهد.

select_best.tcl digitnet digit.dev.numbers.files digit.grammar digit.lexicon \
digit.train.spec digit.dev.summary -g 10 -b 15
Beginning at iteration 15, stopping after iteration 30
Evaluating every 1 iterations
Garbage value is 10
Basename for the .ali files is wrdalign_digitnet
Summary file is digit.dev.summary
Starting Iteration 30...
Starting Iteration 29...
Starting Iteration 28...
Starting Iteration 27...
Starting Iteration 26...
Starting Iteration 25...
(etc)
Starting Iteration 18...
Starting Iteration 17...
Starting Iteration 16...
Starting Iteration 15...
Itr #Snt #Words Sub% Ins% Del% WrdAcc% SntCorr
30 100 444 3.83% 1.13% 0.90% 94.14% 78.00%
29 100 444 3.38% 0.90% 1.13% 94.59% 79.00%
28 100 444 3.83% 0.90% 0.68% 94.59% 79.00%
27 100 444 3.60% 0.90% 0.68% 94.82% 79.00%
26 100 444 3.83% 0.90% 1.13% 94.14% 78.00%
25 100 444 3.60% 0.90% 1.13% 94.37% 78.00%
24 100 444 3.60% 0.90% 0.90% 94.59% 79.00%
23 100 444 3.38% 0.90% 1.13% 94.59% 79.00%
22 100 444 4.05% 0.90% 1.35% 93.69% 77.00%
21 100 444 3.38% 0.90% 1.13% 94.59% 79.00%
20 100 444 3.83% 0.90% 0.90% 94.37% 78.00%
19 100 444 3.83% 1.13% 1.13% 93.92% 78.00%
18 100 444 4.28% 1.13% 0.90% 93.69% 78.00%
17 100 444 2.93% 0.68% 1.13% 95.27% 81.00%
16 100 444 3.60% 1.13% 1.13% 94.14% 80.00%
15 100 444 3.15% 0.90% 1.35% 94.59% 79.00%
Best results (95.27, 81.00) with network digitnet.17
Evaluated 16 networks

توجه داشته باشید آموزش بر روی ۲۰۰ مثال در هر دسته یک اثر منفی بر نتایج دارد زمانی که آموزش با استفاده از همه مثال‌های در دسترس به جای ۲۰۰ در هر دسته (با استفاده از کلید واژه ALL به جای ۲۰۰ در digit.train.info) نتایج روی همین داده‌های توسعه 97.07% برای دقت کلمه و 88.00% برای دقت جمله بود. نقطه ضعف برای آموزش همه مثال‌ها این است که pick_examples.tcl, gen_examples.tcl و به‌خصوص nntrain.exe زمان بیشتر ی را برای اجرا نیاز دارند.
[گام ۱۶] اکنون سیکل اولیه آموزش به پایان رسیده است. اگر برای سطح عمل‌کرد مجموعه توسعه خوشحال هستیم ما می‌توانیم فرآیند آموزش را قطع کرده و مجموعه آزمون را ارزیابی کنیم. (گام ۱۹) اگر می‌خواهیم برای بهبود کارایی مجموعه توسعه تلاش کنیم، میتوانیم سیکل دیگری از آموزش را با داده‌های هم تراز اجباری انجام دهیم. ما می‌توانیم یک فایل info دیگر برای انجام همتراز اجباری با استفاده از فایل آموزش به عنوان نمونه ایجاد کنیم این فایل جدید digit.trainfa.info نامیده خواهد شد.

copy digit.train.info digit.trainfa.info
edit digit.trainfa.info
type digit.trainfa.info
basename: digit;
partition: trainfa;
sampling_freq: 8000;
frame_size: 10;
min_samp: 100;
corpus: name: numbers
cat_path: numbers_trainfa
require: wt
partition: "{expr $ID % 5} {0 1 2}"
filter: 1+1
lexicon: digit.lexicon
force_cat: "fa.tcl digitnet.17 digit.train.spec digit.lexicon
WAV TXT c OUT"
want: 200;

(توجه داشته باشید در رشته :force_cat، اسکریپت و پارامتر های اختصاص یافته در دو خط مشخص می شوند. مارکر خاصی (از جمله) نیاز نیست)
ما می‌توانیم نام پارتیشن و مسیر برای فایل‌های دسته (به number_trainfa) را تغییر دهیم. همچنین با مشخص کردن require: wt، اکنون ما نیاز به وجود فایل‌های wav. و txt. و نه فایل‌های phn. خواهیم داشت. (زیرا ما برچسب‌های آوایی هم تراز زمانی را از رونوشت های متنی با استفاده از فایل‌های lexicon و همتراز اجباری ایجاد می کنیم). همچنین با اضافه کردن یک رشته جدید به توضیحات نوشته نشاندهنده این است که ما می‌خواهیم هم تراز زمانی را انجام دهیم و برچسب‌های سطح دسته را ایجاد کنیم. (بر خلاف سطح آوا) همچنین توجه داشته باشید این خط مشخص می‌کند استفاده از تکرار ۱۷ ، آموزش را به پایان می رساند، بنابراین این تکرار بهترین کارایی سطح کلمه را دارد. زیرا با انجام همتراز اجباری، نیاز به استفاده از دوباره نویسی اسکریپت که برچسب‌های ایجاد شده به صورت دستی را به مجموعه برچسب‌های استفاده شده توسط شناساگر دوباره نویسی می‌کنند نیست.
[گام ۱۷] اکنون ما دوباره فایل‌هایی را که برای آموزش می‌خواهیم توسط اجرای find_files.tcl پیدا می کنیم و سپس برچسب‌های همتراز زمانی سطح دسته را با استفاده از gen_catfiles.tcl تولید می کنیم. به عنوان یک قسمت از فرایند ایجاد فایل‌های برچسب سطح دسته به صورت اتوماتیک فایل‌های counts و dur جدید را ایجاد می کنیم. سرانجام ما یک فایل spec جدید با اطلاعات جدید در فایل‌های counts و dur با استفاده از revise_spec.tcl ایجاد خواهیم کرد. در این حالت ، ما دسته ها را با ۳ رخداد یا بیشتر مرتبط نمی‌کنیم، بیشتر برای نشان دادن گزینه های در دسترس به هر دلیلی از تئوری صدا.

find_files.tcl digit.trainfa.info corpora.txt
gen_catfiles.tcl digit.trainfa.info digit.parts digit.train.spec \
corpora.txt digit.trainfa.dur digit.trainfa.counts
revise_spec.tcl digit.orig.spec digit.trainfa.dur digit.trainfa.counts \
digit.trainfa.spec -min 3
[گام ۱۸] سپس ماگام های آموزش را برای آموزش و انتخاب بهتر شبکه هم تراز اجباری تکرار می‌کنیم.
pick_examples.tcl digit.trainfa.info corpora.txt \
digit.trainfa.spec digit.trainfa.examples
gen_examples.tcl digit.trainfa.info digit.trainfa.spec \
digit.trainfa.examples digit.trainfa.vec
checkvec.exe digit.trainfa.vec
nntrain.exe -l -sn 88 -sv 88 -f digitfanet -a 3 130 200 134 30 digit.trainfa.vec
select_best.tcl digitfanet digit.dev.numbers.files digit.grammar digit.lexicon \
digit.trainfa.spec digit.devfa.summary -g 10 -b 15

توجه داشته باشید که فایل‌های بار شبکه نام پایه digitfanet را دارند. نتایج select_best به صورت زیر است:

Itr #Snt #Words Sub% Ins% Del% WrdAcc% SntCorr
30 100 444 2.70% 1.35% 0.45% 95.50% 85.00%
29 100 444 2.93% 1.35% 0.45% 95.27% 84.00%
28 100 444 3.38% 1.13% 0.23% 95.27% 84.00%
27 100 444 2.93% 1.35% 0.45% 95.27% 84.00%
26 100 444 3.15% 0.90% 0.23% 95.72% 85.00%
25 100 444 3.15% 0.90% 0.23% 95.72% 85.00%
24 100 444 3.38% 0.68% 0.45% 95.50% 85.00%
23 100 444 3.15% 1.13% 0.23% 95.50% 85.00%
22 100 444 3.38% 0.90% 0.23% 95.50% 85.00%
21 100 444 3.60% 1.35% 0.23% 94.82% 81.00%
20 100 444 3.38% 1.35% 0.23% 95.05% 82.00%
19 100 444 3.15% 1.13% 0.23% 95.50% 84.00%
18 100 444 3.15% 1.13% 0.23% 95.50% 83.00%
17 100 444 3.15% 0.68% 0.23% 95.95% 84.00%
16 100 444 3.83% 0.90% 0.23% 95.05% 81.00%
15 100 444 3.38% 0.90% 0.45% 95.27% 83.00%
Best results (95.95, 84.00) with network digitfanet.17

با مجموعه توسعه، این قابل قبول است که پارامتر های سیستم را برای بیشینه کردن کارایی تغییر دهیم. برای مثال،نرخ درج یک مقداری بیشتر از نرخ حذف در این مثال است . بنابراین، عمل‌کرد ممکن است با کاهش یک مقدار پارامتر زباله از ۱۰ به ۷ بهبود یابد. بنابراین نرخ درج کاهش خواهد یافت. (این باعث افزایش نرخ حذف می‌شود... هدف در اینجا این است که کمترین میزان خطا ترکیبی که معمولاً زمان رخداد نرخ خطای حذف و درج تقریباً نزدیک به هم، بوجود آید ) اگر سعی کنیم:
select_best.tcl digitfanet digit.dev.numbers.files digit.grammar \
digit.lexicon digit.trainfa.spec digit.devfa.summary -g 7 -b 15
ما دیدیم که بهترین دقت در سطح کلمه 95.27% بوده که اندکی کمتر 95.95% برای دقت با مقدار ذباله ۱۰ است. بنابراین مقدار ۱۰ را برای مقدار ذباله حذف می‌کنیم.
[گام۱۸ ] شبکه نتیجه ، مقدار digitfanet.17 شبکه نهایی است. گام نهایی ارزیابی این شبکه برای مجموعه آزمون است. در اینجا select_best.tcl را دوباره اجرا می‌کنیم اما فقط با ارزیابی تکرار ۱۷ شبکه با استفاده از "-o 17".
select_best.tcl digitfanet digit.test.numbers.files digit.grammar digit.lexicon \
digit.trainfa.spec digit.test.summary -g 10 -o 17
در این حالت خروجی به صورت زیر است:
Itr #Snt #Words Sub% Ins% Del% WrdAcc% SntCorr
17 19 111 0.00% 3.60% 0.00% 96.40% 78.95%
Best results (96.40, 78.95) with network digitfanet.17
در اینجا نتیجه نهایی 96.40% برای سطح کلمه اندکی بهتر از دقت کلمه در مجموعه توسعه است و دقت سطح جمله 78.95% اندکی بدتر از دقت سطح جمله مجموعه توسعه است. معمولا، کارایی مجموعه آزمون اندکی بدتر از کارایی مجموعه توسعه برای هر دو دقت سطح کلمه و سطح جمله است زیرا کارایی مجموعه توسعه بیشترین کارایی روی تعداد تکرار و مقادیر ذباله بوده در حالی که کارایی مجموعه آزمون یک ارزیابی تنها را منعکس می‌کند که به معنی نشان دادن کارایی که می‌تواند برای یک سیستم نهایی با داده‌های دیده نشده انتظار می‌رود، باشد.
قالب‌های فایل
در قالب‌های فایل‌ زیر متن های با فونت ثابت بولد کلید واژه‌هایی هستند که باید کلمه به کلمه استفاده شوند.
فایل wave
یک فایل wav شامل شکل موج‌های صحبت می باشد که بایستی آموزش داده و یا شناسایی شود. قالب این فایل ممکن است Microsoft .wav format یا NIST Sphere ulaw باشد.
فایل txt
یک فایل txt شامل یک رونوشت متنی از کلمات در شکل موج صحبت است. این فایل به آسانی یک فایل ASCII شامل کلماتی جدا شده توسط فاصله بوده و می‌تواند توسط هر ویرایشگر متنی که دارای خروجی txt. است، ایجاد شود.
فایل‌های برچسب ((.phn, .cat, .wrd
فایل‌های نشاندار،‌که معمولاً پسوند phn. وcat. و wrd. داشته و شامل برچسب‌های همتراز زمانی از یک شکل موج سخن است. اگر فایل پسوند phn. داشته باشد برچسب‌ها برچسب آوایی هستند. اگر برچسب‌ها دارای پسوند cat. باشند برچسب‌ها دسته های خروجی شبکه عصبی هستند (معمولا واحد های زیر آوایی زمینه مستقل) و اگر فایل‌ دارای پسوند wrd. باشد برچسب‌ها کلمات هستند. یک فایل برچسب دارای قالب زیر است:

MillisecondsPerFrame:
END OF HEADER

...

که:

مقدار به میلی ثانیه در یک فریم صحبت (معمولا مقدار 1.0)

زمانی که برچسب شروع می شود

زمانی که برچسب پایان می یابد

مقادیر و در فریم ها اندازه‌گیری می‌شوند (بنابراین اگر ۱.۰ باشد زمان به میلی ثانیه اندازه‌گیری می‌شود اگر برابر با 10 باشد زمان به سانتی ثانیه اندازه‌گیری می‌شود) یک برچسب ، همان برچسب بعدی است.
فایل corpora
یک فایل corpora شامل توضیحات همه corpora هاست:

...
که یک < corpus description > قالب زیر را دارد:

corpus:
wav_path
phn_path
txt_path
format
wav_ext
phn_ext
txt_ext
cat_ext
ID:

که:

نامی است که برای توضیح نوشته به کار می‌رود و قالب آن مانند هر نام متغیرTCL است.

مسیر کامل دایرکتوری شامل فایل‌های شکل موج است. فرض می‌شود که در این دایرکتوری زیر دایرکتوری هایی وجود دارد که فایل‌های واقعی در این زیر دایرکتوری ها هستند.

مسیر کامل دایرکتوری شامل فایل‌های نشان دار آوایی همتراز زمانی است. فرض می‌شود که در این دایرکتوری زیر دایرکتوری هایی وجود دارد که فایل‌های واقعی در این زیر دایرکتوری ها هستند.

مسیر کامل دایرکتوری شامل فایل‌های رونوشت متنی است. فرض می‌شود که در این دایرکتوری زیر دایرکتوری هایی وجود دارد که فایل‌های واقعی در این زیر دایرکتوری ها هستند.

یک عبارت منظم در درون آکولاد است که وقتی برای تجزیه نام پایه یک فایل که متعلق به نوشته است استفاده می شود. همچنین برای استخراج شماره فراخوانی از نام فایل برای تعیین ID فراخوان استفاده می شود.

بسط نام فایل برای فایل‌های شکل موج است. معمولاً مقدار آن wav است.

بسط نام فایل برای فایل‌های برچسب دار آوایی همتراز زمانی است. معمولاً مقدار آن phn است.

بسط نام فایل برای فایل‌های رونوشت متنی (بدون هم تراز زمانی) است. معمولاً مقدار آن txt است.

بسط نام فایل برای فایل‌های دسته همتراز زمانی است، که دسته ها وابسته به خروجی شبکه عصبی هستند (از جمله nas مسیر کامل بوده و نام فایل برای فایل cull برای این نوشته موجود است.

کد tcl در درون یک آکولاد است که برای تعیین ID فراخوان به کار می رود. به منظور ایجاد این امکان این کد می‌تواند به دو متغیر ارجاع داده شود: format$ که بیان منظم اشاره شده در بالا و filename$ که نام پایه یک فایل شکل موج است. نتیجه این کد باید در نتایج متغیر ID ذخیره شود.
فایل info
یک فایل info قالب‌ زیر را دارد:

basename: ;
partition: ;
min_samp: ;
frame_size: ;
sampling_freq: ;
featuresURI: ;
contextURI: ;
corpus: ;
corpus: ;
corpus: ;
...

تعداد corpora مشخص شده در فایل info از نظر تئوری نامحدود است اما حداقل باید یک باشد. توجه داشته باشید هر رشته یک سیمی کالن در پایان دارد.

نام پایه (نام فایل بدون مسیر یا اطلاعات بسط) تعداد فایل‌های اختصاص داده شده به شناساگر از جمله فایل‌های files. است. معمولاً، این نام وظیفه‌ای که باید آموزش داده شود را نشان می دهد. (برای مثال digits)

توضیحاتی در مورد چگونگی اینکه داده‌ها چگونه استفاده خواهند شد. معمولا نام پارتیشن ها train، dev ، trainfa (برای آموزش با همتراز اجباری) و test است.

کمترین تعداد مثال‌ها (یا بردارها) که برای هر دسته درخواست می شود. این فقط زمانی با معنی است که یک نوشته یا بیشتر مورد استفاده قرار گیرد، زیرا اگر فقط یک نوشته وجود داشته باشد، اسکریپت به طور خودکار سعی در پیدا کردن تعداد مثال‌های مطلوب خواهد کرد. اگر بیش از یک نوشته وجود داشته باشد، اسکریپت سعی در بدست آوردن حداقل یک تعداد کمینه مشخص شده خواهد کرد. اگر فقط یک نوشته استفاده شود این رشته ممکن است حذف شود.

اندازه فریمی که شناساگر استفاده خواهد کرد می باشد. مقدار پیش‌فرض ۱۰ میلی ثانیه است.

فرکانس نمونه که شناساگر استفاده خواهد کرد می باشد. مقدار پیش‌فرض ۸۰۰۰ هرتز است.

یک URI یا نشانی منابع یکنواخت، یک راه جهانی مشخص کردن محل چیزهاست، در این حالت محل یک فایل tcl. و روند محاسبه ویژگی‌های آکوستیک را انجام می دهد. پیاده‌سازی فعلی، هرچند فقط فایل‌های محلی را پشتیبانی می کند، بنابراین URI به آسانی مسیر رابه فایل tcl. یک# و نام روش وصل می کند. این روند بایستی شامل کد برای محاسبه ویژگی‌های آکوستیک باشد. این روند بایستی سه آرگومان زیر را داشته باشد: شکل موج ورودی، ویژگی‌های خروجی و فرکانس نمونه مطلوب.

یک URI یا نشانی منابع یکنواخت، یک راه جهانی مشخص کردن محل چیزهاست، در این حالت محل یک فایل tcl. و روند محاسبه ویژگی‌های آکوستیک را انجام می دهد. پیاده‌سازی فعلی، هرچند فقط فایل‌های محلی را پشتیبانی می کند، بنابراین URI به آسانی مسیر رابه فایل tcl. یک# و نام روش وصل می کند. این روند بایستی شامل کدی برای انتخاب یک پنجره زمینه باشد. این روند بایستی چها آرگومان زیر را داشته باشد: شکل موج ورودی، ویژگی‌های آکوستیک ورودی در هر فریم، فرکانس نمونه مطلوب و پنجره زمینه خروجی ویژگی ها، یا اگر پنجره زمینه شامل فقط فریم مرکزی باشد، این روند بایستی یک کپی از ویژگی‌های ورودی را ایجاد کرده و آن را به عنوان خروجی ویژگی پنجره زمینه برگرداند.

شامل اطلاعاتی درمورد چگونگی استفاده فایل‌ها در نوشته خاص است. این رشته قالب زیر را دارد:

name:
cat_path:
require:
wav_list:
phn_list:
txt_list:
partition:
filter:
lexicon:
force_phn:
force_cat:
remap:
want:

که همه رشته ها انتخابی بوده به جز :name و:partition

نام نوشته آموزش دیده است. این نام بایستی با یکی از نام های نوشته در فایل corpora مطابقت داشته باشد.

مسیر کامل دایرکتوری که دسته های همتراز زمانی ذخیره خواهند شد. این دایرکتوری در طول فرآیند آموزش ایجاد خواهد شد.

مشخص می‌کند که کدام فایل‌ها به منظور استفاده برای سخن موجود می باشند. انواع ممکن از فایل‌ها شکل موج، آوا و متن و فایل‌های دسته هستند. برای مشخص کردن اینکه فایل شکل موج باید موجود باشد. پارامتر بایستی شامل حرف w باشد. برای مشخص کردن فایل‌های آوای مورد نیاز این پارامتر باید شامل حرف p و برای مشخص کردن فایل‌های متنی مورد نیاز این پارامتر باید شامل حرف t و در نهایت برای مشخص کردن فایل‌های دسته مورد نیاز این پارامتر باید شامل حرف c باشد. مقادیر معمول برای آموزش wp (زمان استفاده از اطلاعات آوایی همتراز زمانی برچسب زده شده به صورت دستی) و wt (زمان استفاده از همتراز اجباری برای آموزش) هستند. مقدار معمول برای پارتیشن های توسعه و آموزش wt است.

یک نام فایل بوده که شامل یک لیست فایل‌های شکل موج استفاده شده به جای جستجو در کل دایرکتوری نوشته و اعمال فیلتر است. این رشته معمولاً وقتی استفاده می‌شود که جستجو در کل دایرکتوری نوشته مدت زمان زیادی گرفته یا سخت باشد.

یک نام فایل است که شامل لیست فایل‌های آوایی استفاده شده به جای جستجو در کل دایرکتوری نوشته و اعمال فیلتر است.

یک نام فایل است که شامل لیست فایل‌های رونوشت استفاده شده به جای جستجو در کل دایرکتوری نوشته و اعمال فیلتر است.

شامل، کد tcl در درون آکولاد برای تولید یک شماره یا رشته بر اساس ID فایل و یک لیست در درون آکولاد که اگر تعداد رشته های تولید شده در درون این لیست باشند، فایل در پارتیشن (آموزش، توسعه و آزمون)مشخص شده است. در CSLU ما از رشته‌های زیر استفاده می کنیم:
for training: "{expr $ID % 5} {0 1 2}"
for fa: "{expr $ID % 5} {0 1 2}"
for fb: "{expr $ID % 5} {0 1 2}"
for dev: "{expr $ID % 5} {3}"
for test: "{expr $ID % 5} {4}"
بنابراین تعیین بر اساس مد ۵ ID فایل است و اگر ۰ ، ۱ و یا ۲ باشد فایل برای آموزش، همتراز اجباری و آموزش جلو وعقب است. اگر مد ۵ ID فایل، ۳ باشد، فایل برای توسعه و اگر ۴ باشد فایل برای آزمایش استفاده می شود.

برای مشخص کردن تعداد فایل برای پرش است. قالب این رشته X+Y است که X فایل Nام برای استفاده و Y آفست از شروع می باشد. برای مثال، ۱+۱ برای مشخص کردن استفاده از تمامی فایل‌ها، 1+3 برای مشخص کردن استفاده از هر فایل سوم و 4+10 برای مشخص کردن هر فایل دهم با شروع از فایل چهارم می باشد.

نام فایل lexicon برای این وظیفه است. اگر این رشته مشخص شود سپس یک فیلتر برای اطمینان از اینکه همه فایل‌ها یی که انتخاب شده‌اند شامل فقط کلمات فایل lexicon باشند، ‌اعمال خواهد شد. این با خواندن فایل‌های txt. مرتبط با هر فایل wav. انجام خواهد شد.

نام اسکریپت و آرگومان هایشان برای انجام همتراز اجباری و تولید نتایج سطح آوایی است. در لیست آرگومان،‌کلیدواژه TXT با متن تراز شده جانشین خواهد شد. WAV با نام فایل شکل موج جانشین خواهد شد و OUT با نام فایل خروجی سطح آوا جانشین خواهدشد. یک برنامه هدف عمومی می‌تواند به صورت زیر استفاده شود.
"fa.tcl WAV TXT p OUT"
که شبکه عصبی برای استفاده است، فایل مشخصات مرتبط با شبکه عصبی می باشد و فایل lexicon است.

نام اسکریپت و آرگومان هایشان برای انجام همتراز اجباری و تولید نتایج سطح دسته است. در لیست آرگومان،‌کلیدواژه TXT با متن تراز شده جانشین خواهد شد. WAV با نام فایل شکل موج جانشین خواهد شد و OUT با نام فایل خروجی سطح دسته جانشین خواهدشد. یک برنامه هدف عمومی می‌تواند به صورت زیر استفاده شود.
"fa.tcl WAV TXT c OUT"
که شبکه عصبی برای استفاده است، فایل مشخصات مرتبط با شبکه عصبی می باشد و فایل lexicon است.

نام یک اسکریپت برای تنظیم اتوماتیک برچسب های آوایی همتراز زمانی برچسب شده به صورت دستی و دوباره نویسی تعدادی نماد های آوایی است. چندین اسکریپت دوباره نویسی قابل دسترس وجود دارند یا شما می‌توانید مال خودتان را ایجاد کنید. اسکریپت های در دسترس عبارتند از: برای استفاده در هدف عمومی: remap_genpur.tcl برای نوشته رقم ها، remap_digits.tcl برای نوشته رقمی آلفا، remap_ad.tcl یرای نوشته هجی صحبت، remap_spellspoken.tcl فقط نام اسکریپت مورد نیاز است، با فرض اینکه دو آرگومان عبارتند از: و .

تعداد مثال‌ها در هر دسته که ما از نوشته مشخص می خواهیم. رنج معمول بین ۵۰۰ تا ۲۰۰۰ است اما کلید واژه ALL با یک مقدار بسیار بالا جانشین خواهد شد. همچنین اگر نوشته فقط برای پیدا کردن مثال‌هایی که در مجموعه اصلی کمیاب هستند استفاده شده باشد مقدار ۰ در مثال‌های انتخاب شده از این نوشته فقط وقتی که corpora قبلی کمتر از مثال‌های minimum_number_of_examples > باشد منتج خواهد شد.
استفاده از مطالب این مقاله با ذکر منبع راسخون، بلامانع می باشد.