236303 - פרויקט בעיבוד שפות טבעיות

 

מוטיבציה:

בשפה מדוברת יש מידע לא ורבלי (אינטונציה, הפסקות, ...) שאינו קיים בטקסט כתוב. במסגרת הפרויקט ננסה לנצל מידע זה להבנת הדיבור. יעמדו לרשותכם תוכנות לעיבוד קול. תשתמשו בשיטות לימוד מכונה (Machine Learning) ובינה מלאכותית. התוכנית שתכתבו תלמד מדוגמאות מתויגות, בחלק מהפרויקטים אנו נספק את הדוגמאות ובאחרים ייצור הדוגמאות הוא חלק מהפרויקט.

 

אמצעי המחקר:

PRAAT:          תוכנה לעיבוד קול

C4.5:               תוכנה עבור Machine Learning

JAVA:             את התוכנה תכתבו ב- JAVA

ASR:               Speech Recognizer מתוך Microsoft Speech SDK 5.1

 

ספרות:

"Spoken Language Processing,  A Guide to Theory, Algorithm, and System Development"

מחברים:          Xuedong Huang, Alex Acero, Hsiao-Wuen Hon

פרק 17, עמודים 853-866

 

פרטים: רומן טליאנסקי, טאוב 712 , טלפון 829-4843 , ימים: א-ג'

דוא"ל romano at cs.technion.ac.il

 

תאור הפרויקטים

1. זיהוי גבולות בין יחידות משמעות בדיבור

2. זיהוי של הקראה מול דיבור ספונטאני

3.  Shallow Parsing על-ידי ניתוח תכונות קוליות

4. זיהוי קטעים חשובים לדובר

5. זיהוי שפת האם

6. זיהוי של נימת הדיבור

o7. מבוא לקטגוריזציה של יחידות משמעות  בדיבור