سمینار برق بررسی چندین روش بازشناسی حالت گفتار

سمینار برق بررسی چندین روش بازشناسی حالت گفتار سمینار برق بررسی چندین روش بازشناسی حالت گفتار

دسته : سمینار برق

فرمت فایل : pdf

حجم فایل : 1481 KB

تعداد صفحات : 163

بازدیدها : 209

برچسبها : پروژه تحقیق مبانی نظری

مبلغ : 10000 تومان

خرید این فایل

سمینار برق بررسی چندین روش بازشناسی حالت گفتار

سمینار برق بررسی چندین روش بازشناسی حالت گفتار

لطفا از این پروژه در راستای تکمیل تحقیقات خود و در صورت کپی برداری با ذکر منبع استفاده نمایید.

چکیده

در سالهای اخیر، شناخت حالات گفتار انسانی بعلت تنوع کاربردهای آن، موجب افزایش استفاده از چنین تکنولوژی شده است. در این تحقیق ابتدا تعریفی از حالت ارائه شده، سپس به برخی مشکلات موجود در این کار که تشخیص را سختتر میکند پرداخته و راهحلهای متفاوت ارائه شده در این زمینه معرفی میشود. بعد از آن به الگوریتمها و روشهای ارائه شده در زمینه بازشناسی حالت در گفتار پرداخته و چند نمونه از تحقیقاتی که در این زمینه صورت گرفته ارائه شده است. همچنین به برخی مزایا و معایب هر روش و اینکه هر کدام از این روشها برای چه شرایطی مفیدترند نیز، اشاره خواهد شد. در نهایت برخی کاربردهای آن نیز مورد بررسی قرار میگیرد. نتایج نشان میدهد که شبکههای عصبی می- توانند بهعنوان یک دستهبندی کننده خوب برای شناسایی حالت گفتار استفاده شوند. نتایج این روشها زمانی بهتر خواهد بود که حالت گفتار ذکر شده دارای تفاوتهای قابل توجهی نسبت به سایر حالات باشد. 

مقدمه

چارلز داروین نخستین کتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمع آوری دانش و اطلاعات در این زمینه پرداختند. اخیراً نیز موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را بر انگیخته است. بعضی از دلایل این رنسانس عبارتند از : پیشرفت فناوری در ثبت, ذخیره و تحلیل اطلاعات صوتی و تصویری, پیشرفت در فناوری حسگر و کامپیوتر های فرسایش پذیر , بالا رفتن سطح فناوری ارتباط انسان و رایانه از نقطه none intrusive های و کلیک به حس و عاطفه و نرم افزار های زنده وار مخصوص کمک به انسان و رباتهای حیوان شکل های شرکت سونی که قادر به درک و بیان احساسات می Aibo , های شرکت تایگر Furbi خانگی از قبیل تحت عنوان محاسبه عاطفی ایجاد (AI) باشد. به تازگی زمینه های تحقیقاتی جدیدی در هوش مصنوعی شده است. در حوزه رمز گشایی و توصیف و به تصویر کشیدن حالات در گفتار، تا کنون روانشناسان به آزمایشات تجربی بسیاری دست زده اند و فرضیه هایی ارائه داده اند و از طرف دیگر محققان هوش مصنوعی نیز در شاخه های زیر تحقیقات ارزنده ای انجام داده اند: ساخت و ترکیب حالات گفتار, باز شناسایی حالات گفتار و استفاده از نرم افزار هایی برای رمز گشایی و بیان حالات. انگیزه ما تحقیق و کاوش در راههای استفاده از بازشناسی حالات گفتار است که می تواند در تجارت (به خصوص کاربرد آن در یک مرکز تلفن), یک کاربرد بالقوه آن تشخیص حالت گفتاری در یک مکالمه تلفنی و ایجاد فیدبک به یک اپراتور یا سرپرست به منظور نمایش باشد. کاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت بیان شده توسط تماس گیرنده می باشد. و کاربرد دیگر آن استفاده از محتوای حالت احساسی مکالمات جهت ارزیابی عملکرد اپراتور است. شناسایی خودکار حالت گفتار با توجه با حالات صورت، حرکات بدن و یا ویژگی های گفتار از امیدبخش ترین روش های بازشناسی حالت گفتار ثابت شده است. بخصوص در زمینه سیستم های امنیتی در سالهای اخیر علاقه مندی های بسیاری مشاهده شده است. حال می خواهیم بدانیم که منظور از حالت در گفتار چیست؟ اگر تا کنون در چند سخنرانی شرکت کرده باشید خواهید دید که برخی از سخنرانی ها جذاب و برخی خسته کننده می باشند. این موضوع علاوه بر موضوع سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یکنواخت داشته باشد همانند یک ربات خواهد بود، که باعث خواب آلودگی شنونده می شود. بنابراین سخنرانان حرفه ای با تغییر آهنگ گفتار خویش و با حرکات به موقع دست، سر و بدن خویش، با تاکید روی برخی کلمات، بیان برخی جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر می دهند. این تغییرات در نحوه بیان جملات و کلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شکلی غیر از حالت عادی و یکنواخت بعنوان یک حالت شناخته می شود. حالات مختلف ممکن از قبیل: خشم، تنفر، ترس، شادی، غم، هیجان، آرامش، کسالت، افسردگی و … می باشند. حتی در برخی از مواقع در مورد میزان یک حالت بحث می شود، مثلا شاد با خیلی شاد را در نظر می گیرند. اضافه کردن حالت طبیعی به این حالت ها معقول بنظر می رسد تا هر کدام از این حالت ها درک شوند. یعنی برای در نظر گرفتن یک حالت جدید یک سری تغییرات باید نسبت به یک مبدا وجود داشته باشد و در اینگونه کار ها مبنا حالت طبیعی و بدون حالت می باشد. این طبقه بندی بعنوان اساس مقایسه استفاده می شود. امروزه آمار عمومی از یک عبارت بعنوان اساس کار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را دارند.

اغلب برای تشخیص مثلا: دروغ، بازی های ویدیویی و کمک روانپزشکی از بازشناسی حالت گفتار استفاده شده است. برای اطمینان از تشخیص صحیح معقول است که تعداد و نوع حالت های قابل تشخیص محدود و متناسب با نیاز در آن کاربرد خاص باشد(برای طبقه بندی مناسب). هنوز بصورت فنی هیچ استاندارد مشخصی برای تشخیص و طبقه بندی حالت های گفتار نداریم. اغلب یک روش تمیز دادن، میان یک مجموعه تعریف شده از حالت های گفتار مجزا است و عقیده مشترکی(واحدی)برای نام شش حالت : 1- خشم 2- تنفر Mpeg تعداد و اسامی آنها موجود نیست. این موضوع در استاندارد 4 -3 ترس 4- شادی 5- غم 6- هیجان را در بر دارد. از طرفی این تحقیقات در هر زبان و لهجه ای خاص خود می باشد و چنانچه از مبنا دور گردیم دقت بازشناسی کاهش می یابد. مثلا نمی توان سیستمی که برای زبان انگلیسی طراحی شده است را برای زبان فارسی بکار برد. زیرا پایگاه داده ای که برای زبان انگلیسی طراحی شده ویژگی های خاص خود را دارد که برای زبان فارسی متفاوت است و کاربردی ندارد. البته ممکن است الگوریتم کاری آنها مشابه باشد. اطلاعات غیر کلامی که در حالات، حرکات و ادای چهره انسان پدیدار می گردد، نقش مهمی درارتباطات بشری دارد. به ویژه افراد با استفاده از اطلاعات حالت یا عاطفی راحتتر با یکدیگر ارتباط برقرار می کنند.

خرید و دانلود آنی فایل

به اشتراک بگذارید

Alternate Text

آیا سوال یا مشکلی دارید؟

از طریق این فرم با ما در تماس باشید