1
0
Fork 0
arangodb/3rdParty/icu/source/test/testdata/wordsegments.txt

48 lines
2.8 KiB
Plaintext
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Copyright (C) 2011-2011, International Business Machines Corporation
# and others. All Rights Reserved.
#
# file name: wordsegments.txt
# encoding: UTF-8
#
# created on: 2011may14
# created by: George Rhoten
# created by: Nathan Wells
#
# Word boundary test data for languages that contain no spaces.
# Boundaries are deliminated with the | character so that it's easier to debug.
#
# If you have test data with zero width spaces to deliminate the words, use the following command example.
# Be sure to copy the zero width space in the sed command.
# echo 'សូម​ចំណាយពេល​បន្តិច​ដើម្បី​អធិស្ឋាន​អរ​ព្រះគុណ​ដល់​ព្រះអង្គ' | sed 's//\|/g'
#
# Khmer
តើ|លោក|មក|ពី|ប្រទេស|ណា
សណ្ដូក|ក|បណ្ដែត|ខ្លួន
ពណ៌ស|ម្ដេច|ថា|ខ្មៅ
#ប្រយោគ|ពី|របៀប|រួបរួម|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល
ប្រយោគ|ពី|របៀប|ដែល|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល
#ប្រយោគ|ពី|របៀប|ជា|មួយ|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល
សូម|ចំណាយពេល|បន្តិច|ដើម្បី|អធិស្ឋាន|អរព្រះគុណ|ដល់|ព្រះអង្គ
ការ|ថោកទាប|បរិប្បូណ៌|ដោយ
ប្រើប្រាស់|ស្អាត|ទាំង|ចិត្ត|សិស្ស|នោះ
បើ|អ្នក|ប្រព្រឺត្ត|អំពើអាក្រក់|មុខ|ជា|មាន
ប្រដាប់|ប្រដា|រ|រៀនសូត្រ|បន្ទប់|រៀន
ដើរតួ|មនុស្សគ|ឥត|បញ្ចេញ|យោបល់|សោះ|ឡើយ
មិន|អាច|ឲ្យ|យើង|ធ្វើ|កសិកម្ម|បាន|ឡើយ
បន្ត|សេចក្ត|ទៅទៀត
ក្រុម|ប៉ូលិស|បណ្តាក់|គ្នា
គ្មាន|សុខ|សំរាន្ត|ដង|ណា
បាន|សុខភាព|បរិប្បូណ៌
ជា|មេចោរ|ខ្ញុំ|នឹង|ស្លាប់|ទៅវិញ|ជា|មេចោរ
ឯ|ការ|វាយ|ផ្ចាល|ដែល|នាំ
គេ|ដឹក|ទៅ|សំឡាប់
#អ្នក|ដែល|ជា|មន្ត្រី|ធំ|លើ|គាត់|ទេ
យក|ទៅ|សម្លាប់ចោល|ស្ងាត់
ត្រូវ|បាន|គេ|សម្លាប់
នៅក្នុង|ស្រុក|ខ្ល|ងហ្ស៊ុន
# Thai
กู| |กิน|กุ้ง| |ปิ้่|งอ|ยู่|ใน|ถ้ำ