מבוא לקטגוריזציה של יחידות משמעות  בדיבור

 

מוטיבציה:

בדיבור יש מידע לא ורבלי (אינטונציה, הפסקות, ...) שאינו קיים בטקסט כתוב. במסגרת הפרויקט ננסה לנצל מידע זה להבנת הדיבור. יעמדו לרשותכם תוכנות לעיבוד קול. תשתמשו בשיטות לימוד מכונה (Machine Learning) ובינה מלאכותית. התוכנית שתכתבו תלמד מדוגמאות מתויגות ואתם תיצרו את הדוגמאות. הפרויקט עוסק באחד ההיבטים בתחום "הבנת דיבור". לאחר שיחידות מבנה של דו-שיח – פעולות דיבור (Speech Acts) – זוהו המשימה הבאה בדרך להבנת האמירה היא סיווג היחידות למספר קטגוריות סמנטיות כמו – הצעת מעשה, הסכמה להצעה, סירוב ההצעה, ... כדוגמא בו נבחן את המילה  "בסדר". בהתאם לאופן הביטוי המילה יכולה להעביר הסכמה נלהבת ,שעמום, שאלה או אי-ודאות. במסגרת הפרויקט כמבוא ל- Speech Acts Categorization אנו נבחר מספר מילים רב-משמעותיות כמו "בסדר" ונכתוב תוכנה שתזהה את המשמעות האמיתית של המילים האלו בדיבור

 

תיאור הפרויקט:

בפרויקט תידרשו לכתוב תוכנה עם:

·        קלט:   

o       קלט לשלב לימוד: אוסף קבצי דיבור וטקסט מתויגים למטרת לימוד.

§         כל קובץ דיבור יכיל מספר משפטים מדוברים.

§         לכל קובץ דיבור יהיה קובץ טקסט שמכיל זוגות זמנים שבהם מתחילים ומסתיימים המילים שייבחרו לפרויקט עם ציון

·        טקסט המילים עצמן.

·        תגים שיציינו את הקטגוריות הסמנטיות של המילים

o       קלט לשלב הערכה:

§         קובץ דיבור;

§         קובץ טקסט שמכיל זוגות זמנים שבהם מתחילים ומסתיימים המילים שייבחרו לפרויקט עם ציון טקסט המילים עצמן.

·        פלט:     קובץ טקסט כמו קובץ הקלט, בו לכל זוג הזמנים מקובץ הקלט יצורף זוג תגים:

o       סיווג הזוג לתוך אחת הקטגוריות הסמנטיות;

o       רמת הביטחון:   מספר בין 0 ל- 1 המציין רמת הביטחון של התוכנה בהחלטתה.

 

אמצעי המחקר:

·        PRAAT:          תוכנה לעיבוד קול

·        C4.5:               תוכנה עבור Machine Learning

·        JAVA:             את התוכנה תכתבו ב- JAVA

·        ASR:               Speech Recognizer מתוך Microsoft Speech SDK 5.1

 

ספרות:

ספר:

כותרת:

"Spoken Language Processing,

A Guide to Theory, Algorithm, and System Development"

מחברים:          Xuedong Huang, Alex Acero, Hsiao-Wuen Hon

פרק 17, עמודים 853-866