Grammarly створила перший анотований GEC-корпус української мови і зробила його open-source


Опубликованно 22.01.2021 15:35

Grammarly створила перший анотований GEC-корпус української мови і зробила його open-source

Сeрвис Grammarly aнoнсувaв ствoрeння тa публікaцію у відкритoму дoступі пeршoгo aнoтoвaнoгo GEC-кoрпусу укрaїнськoї мoви.

Grammatical Error Correction — випрaвлeння грaмaтичниx пoмилoк, мoвний кoрпус — сукупність тeкстів, aвтoрaми якиx є звичaйні семя. Признaчeння кoрпусу — нaукoвe тa прaктичнe вивчeння мoви.   Сxoжі кoрпуси існують чтобы бaгaтьox мов, але до сьогодні невыгодный було такого анотованого корпусу исполнение) вивчення української мови.

Презентований GEC-станина української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що їх написали майже 500 волонтерів з усієї України і з-по (по грибы) кордону.

Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у компанії Grammarly і если частиною внеску Grammarly у розвиток українського NLP (natural language processing — опрацювання природної мови).

Личный состав Grammarly продовжить наповнювати корпус текстами следовать допомогою вебсайту проєкту, а також працюватиме надо удосконаленням його технічної цінності, щоб збільшити його значення к наукової спільноти.   

Розробники вважають, що оболочка може мати позитивний вплив для:

  • Створення нових онлайн-систем виправлення граматики в українськомовних текстах. Українська мова пропитывать до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів угоду кому) дослідження української зараз існує небагато. Створений оболочка надає українській дослідницькій спільноті ще Водан інструмент для опрацювання природної мови і може прискорити розвиток українських комунікаційних асистентів.
  • Сприяння використанню якісної української мови в онлайні. Цей мэйнфрейм буде корисним для наукової спільноти, адже надасть більше інструментів для того досліджень та в результаті буде корисним для того тих, хто спілкується українською онлайн.

Дізнатися більше оборона розробку і підтримати проект можна по (по грибы) посиланням: ua-gec-dataset.grammarly.com.


Добавить прочтение Отменить ответ

Ваш адрес email далеко не будет опубликован. Обязательные поля помечены *



Категория: Технологии