Корпус Хамшахри

Корпус Хамшахри (перс. پیکره همشهری‎) — корпус текстов на персидском языке, основанный на контенте иранской газеты «Хамшахри», одного из первых онлайн-изданий на персидском языке. Первоначально собран и составлен Эхсаном Дарруди из DBRG Group, базирующейся в Тегеранском университете. Позднее группа под руководством Али Ахмада, на основе этого корпуса создала первую базу персидских текстов, пригодную для задач информационного поиска.

Корпус Хамшахри был создан путем сканирования новостных статей с веб-сайта газеты «Хамшахри» и последующей обработки HTML-страниц для создания стандартного текстового корпуса, пригодного для стандартного поиска информации.

Источник: Википедия

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я