Китайский институт языковой разведки АСЕАН независимо создает многоязычное корпус
В последние годы, благодаря быстрому развитию технологий искусственного интеллекта и обработки естественного языка, строительство многоязычного корпуса стало важной основой для продвижения межязычного общения и технологических инноваций. Научно -исследовательский институт АССЕАН АСЕАН (далее именуемый «Институт») недавно объявил, что он успешно создал многоязычный корпус, охватывающий основные языки десяти стран АСЕАН, направленного на то, чтобы способствовать взаимодействии языка, культурного распространения и интеллектуального технологического сотрудничества между Китаем и странами АСЕАН.
Конструкция этого корпуса не только заполняет пробел в области многоязычных языковых ресурсов в Китае, но также обеспечивает высококачественную поддержку данных для приложений искусственного интеллекта, таких как машинный перевод, распознавание речи и анализ текста. Вот обзор основных функций и данных этого корпуса:
Языковые типы | Корпусная шкала (100 миллионов слов) | Зоны покрытия | Источник данных |
---|---|---|---|
китайский | 50 | Новости, право, наука и литература | Государственные публикации, правительственные документы |
Тайский | 12 | Социальные сети, новости, путешествия | Предоставлено сетевыми ползами и кооперативными учреждениями |
вьетнамский | 10 | Экономика, культуры, образование | Академические документы, средства массовой информации |
малайский | 8 | Бизнес, право, ежедневные разговоры | Корпоративное сотрудничество, агентство переводов |
индонезийский | 8 | Новости, социальные сети, кино и телевидение | Общественные наборы данных, ползание сети |
Корпусные сценарии
Строительство этого корпуса обеспечивает базовую поддержку приложений в нескольких областях, в основном, включая:
1Машинный перевод: Благодаря высокоязычному многоязычному параллельному корпусу, институт обучил модель перевода, которая поддерживает языковые пары, такие как китайско-английский, китайский Тайланд и Китай-Вьетнам, и точность перевода значительно улучшается.
2Распознавание голоса: Голосовые данные в корпусе предоставляют учебные материалы для систем распознавания речи в странах АСЕАН, помогая разрабатывать такие приложения, как интеллектуальные голосовые помощники и системы обслуживания клиентов.
3Посещение информации о перекрестном языке: Пользователи могут искать связанный контент на языках АСЕАН через китайские ключевые слова, которые значительно облегчают академические исследования и коммерческую информацию.
4Культурное общение и исследования: Литература, кино и телевизионный контент в корпусе предоставляет культурным ученым богатые аналитические материалы и способствуют культурным обменам между странами Китая и АСЕАН.
Будущее планирование
Институт сказал, что в будущем масштаб и языковые типы корпуса будут расширены в будущем, и планируют включить больше небольших языков АСЕАН, таких как бирманский и камбоджийский. В то же время институт будет сотрудничать с академическими учреждениями и предприятиями в странах АСЕАН, чтобы способствовать открытому совместному использованию корпуса и внести свой вклад в исследование глобальных языковых разведки.
Строительство этого многоязычного корпуса является не только важным достижением Китайского института языковой разведки в Китае, но также обеспечивает сильную поддержку взаимодействия языка и технического сотрудничества в рамках инициативы «Пояс и дорога». Благодаря постоянному развитию технологий искусственного интеллекта, перспективы применения многоязычного корпуса будут шире.
Проверьте детали
Проверьте детали