Coverage for /pythoncovmergedfiles/medio/medio/usr/local/lib/python3.8/site-packages/charset_normalizer/assets/__init__.py: 100%
2 statements
« prev ^ index » next coverage.py v7.2.7, created at 2023-06-06 06:03 +0000
« prev ^ index » next coverage.py v7.2.7, created at 2023-06-06 06:03 +0000
1# -*- coding: utf-8 -*-
2from typing import Dict, List
4# Language label that contain the em dash "—"
5# character are to be considered alternative seq to origin
6FREQUENCIES: Dict[str, List[str]] = {
7 "English": [
8 "e",
9 "a",
10 "t",
11 "i",
12 "o",
13 "n",
14 "s",
15 "r",
16 "h",
17 "l",
18 "d",
19 "c",
20 "u",
21 "m",
22 "f",
23 "p",
24 "g",
25 "w",
26 "y",
27 "b",
28 "v",
29 "k",
30 "x",
31 "j",
32 "z",
33 "q",
34 ],
35 "English—": [
36 "e",
37 "a",
38 "t",
39 "i",
40 "o",
41 "n",
42 "s",
43 "r",
44 "h",
45 "l",
46 "d",
47 "c",
48 "m",
49 "u",
50 "f",
51 "p",
52 "g",
53 "w",
54 "b",
55 "y",
56 "v",
57 "k",
58 "j",
59 "x",
60 "z",
61 "q",
62 ],
63 "German": [
64 "e",
65 "n",
66 "i",
67 "r",
68 "s",
69 "t",
70 "a",
71 "d",
72 "h",
73 "u",
74 "l",
75 "g",
76 "o",
77 "c",
78 "m",
79 "b",
80 "f",
81 "k",
82 "w",
83 "z",
84 "p",
85 "v",
86 "ü",
87 "ä",
88 "ö",
89 "j",
90 ],
91 "French": [
92 "e",
93 "a",
94 "s",
95 "n",
96 "i",
97 "t",
98 "r",
99 "l",
100 "u",
101 "o",
102 "d",
103 "c",
104 "p",
105 "m",
106 "é",
107 "v",
108 "g",
109 "f",
110 "b",
111 "h",
112 "q",
113 "à",
114 "x",
115 "è",
116 "y",
117 "j",
118 ],
119 "Dutch": [
120 "e",
121 "n",
122 "a",
123 "i",
124 "r",
125 "t",
126 "o",
127 "d",
128 "s",
129 "l",
130 "g",
131 "h",
132 "v",
133 "m",
134 "u",
135 "k",
136 "c",
137 "p",
138 "b",
139 "w",
140 "j",
141 "z",
142 "f",
143 "y",
144 "x",
145 "ë",
146 ],
147 "Italian": [
148 "e",
149 "i",
150 "a",
151 "o",
152 "n",
153 "l",
154 "t",
155 "r",
156 "s",
157 "c",
158 "d",
159 "u",
160 "p",
161 "m",
162 "g",
163 "v",
164 "f",
165 "b",
166 "z",
167 "h",
168 "q",
169 "è",
170 "à",
171 "k",
172 "y",
173 "ò",
174 ],
175 "Polish": [
176 "a",
177 "i",
178 "o",
179 "e",
180 "n",
181 "r",
182 "z",
183 "w",
184 "s",
185 "c",
186 "t",
187 "k",
188 "y",
189 "d",
190 "p",
191 "m",
192 "u",
193 "l",
194 "j",
195 "ł",
196 "g",
197 "b",
198 "h",
199 "ą",
200 "ę",
201 "ó",
202 ],
203 "Spanish": [
204 "e",
205 "a",
206 "o",
207 "n",
208 "s",
209 "r",
210 "i",
211 "l",
212 "d",
213 "t",
214 "c",
215 "u",
216 "m",
217 "p",
218 "b",
219 "g",
220 "v",
221 "f",
222 "y",
223 "ó",
224 "h",
225 "q",
226 "í",
227 "j",
228 "z",
229 "á",
230 ],
231 "Russian": [
232 "о",
233 "а",
234 "е",
235 "и",
236 "н",
237 "с",
238 "т",
239 "р",
240 "в",
241 "л",
242 "к",
243 "м",
244 "д",
245 "п",
246 "у",
247 "г",
248 "я",
249 "ы",
250 "з",
251 "б",
252 "й",
253 "ь",
254 "ч",
255 "х",
256 "ж",
257 "ц",
258 ],
259 # Jap-Kanji
260 "Japanese": [
261 "人",
262 "一",
263 "大",
264 "亅",
265 "丁",
266 "丨",
267 "竹",
268 "笑",
269 "口",
270 "日",
271 "今",
272 "二",
273 "彳",
274 "行",
275 "十",
276 "土",
277 "丶",
278 "寸",
279 "寺",
280 "時",
281 "乙",
282 "丿",
283 "乂",
284 "气",
285 "気",
286 "冂",
287 "巾",
288 "亠",
289 "市",
290 "目",
291 "儿",
292 "見",
293 "八",
294 "小",
295 "凵",
296 "県",
297 "月",
298 "彐",
299 "門",
300 "間",
301 "木",
302 "東",
303 "山",
304 "出",
305 "本",
306 "中",
307 "刀",
308 "分",
309 "耳",
310 "又",
311 "取",
312 "最",
313 "言",
314 "田",
315 "心",
316 "思",
317 "刂",
318 "前",
319 "京",
320 "尹",
321 "事",
322 "生",
323 "厶",
324 "云",
325 "会",
326 "未",
327 "来",
328 "白",
329 "冫",
330 "楽",
331 "灬",
332 "馬",
333 "尸",
334 "尺",
335 "駅",
336 "明",
337 "耂",
338 "者",
339 "了",
340 "阝",
341 "都",
342 "高",
343 "卜",
344 "占",
345 "厂",
346 "广",
347 "店",
348 "子",
349 "申",
350 "奄",
351 "亻",
352 "俺",
353 "上",
354 "方",
355 "冖",
356 "学",
357 "衣",
358 "艮",
359 "食",
360 "自",
361 ],
362 # Jap-Katakana
363 "Japanese—": [
364 "ー",
365 "ン",
366 "ス",
367 "・",
368 "ル",
369 "ト",
370 "リ",
371 "イ",
372 "ア",
373 "ラ",
374 "ッ",
375 "ク",
376 "ド",
377 "シ",
378 "レ",
379 "ジ",
380 "タ",
381 "フ",
382 "ロ",
383 "カ",
384 "テ",
385 "マ",
386 "ィ",
387 "グ",
388 "バ",
389 "ム",
390 "プ",
391 "オ",
392 "コ",
393 "デ",
394 "ニ",
395 "ウ",
396 "メ",
397 "サ",
398 "ビ",
399 "ナ",
400 "ブ",
401 "ャ",
402 "エ",
403 "ュ",
404 "チ",
405 "キ",
406 "ズ",
407 "ダ",
408 "パ",
409 "ミ",
410 "ェ",
411 "ョ",
412 "ハ",
413 "セ",
414 "ベ",
415 "ガ",
416 "モ",
417 "ツ",
418 "ネ",
419 "ボ",
420 "ソ",
421 "ノ",
422 "ァ",
423 "ヴ",
424 "ワ",
425 "ポ",
426 "ペ",
427 "ピ",
428 "ケ",
429 "ゴ",
430 "ギ",
431 "ザ",
432 "ホ",
433 "ゲ",
434 "ォ",
435 "ヤ",
436 "ヒ",
437 "ユ",
438 "ヨ",
439 "ヘ",
440 "ゼ",
441 "ヌ",
442 "ゥ",
443 "ゾ",
444 "ヶ",
445 "ヂ",
446 "ヲ",
447 "ヅ",
448 "ヵ",
449 "ヱ",
450 "ヰ",
451 "ヮ",
452 "ヽ",
453 "゠",
454 "ヾ",
455 "ヷ",
456 "ヿ",
457 "ヸ",
458 "ヹ",
459 "ヺ",
460 ],
461 # Jap-Hiragana
462 "Japanese——": [
463 "の",
464 "に",
465 "る",
466 "た",
467 "と",
468 "は",
469 "し",
470 "い",
471 "を",
472 "で",
473 "て",
474 "が",
475 "な",
476 "れ",
477 "か",
478 "ら",
479 "さ",
480 "っ",
481 "り",
482 "す",
483 "あ",
484 "も",
485 "こ",
486 "ま",
487 "う",
488 "く",
489 "よ",
490 "き",
491 "ん",
492 "め",
493 "お",
494 "け",
495 "そ",
496 "つ",
497 "だ",
498 "や",
499 "え",
500 "ど",
501 "わ",
502 "ち",
503 "み",
504 "せ",
505 "じ",
506 "ば",
507 "へ",
508 "び",
509 "ず",
510 "ろ",
511 "ほ",
512 "げ",
513 "む",
514 "べ",
515 "ひ",
516 "ょ",
517 "ゆ",
518 "ぶ",
519 "ご",
520 "ゃ",
521 "ね",
522 "ふ",
523 "ぐ",
524 "ぎ",
525 "ぼ",
526 "ゅ",
527 "づ",
528 "ざ",
529 "ぞ",
530 "ぬ",
531 "ぜ",
532 "ぱ",
533 "ぽ",
534 "ぷ",
535 "ぴ",
536 "ぃ",
537 "ぁ",
538 "ぇ",
539 "ぺ",
540 "ゞ",
541 "ぢ",
542 "ぉ",
543 "ぅ",
544 "ゐ",
545 "ゝ",
546 "ゑ",
547 "゛",
548 "゜",
549 "ゎ",
550 "ゔ",
551 "゚",
552 "ゟ",
553 "゙",
554 "ゕ",
555 "ゖ",
556 ],
557 "Portuguese": [
558 "a",
559 "e",
560 "o",
561 "s",
562 "i",
563 "r",
564 "d",
565 "n",
566 "t",
567 "m",
568 "u",
569 "c",
570 "l",
571 "p",
572 "g",
573 "v",
574 "b",
575 "f",
576 "h",
577 "ã",
578 "q",
579 "é",
580 "ç",
581 "á",
582 "z",
583 "í",
584 ],
585 "Swedish": [
586 "e",
587 "a",
588 "n",
589 "r",
590 "t",
591 "s",
592 "i",
593 "l",
594 "d",
595 "o",
596 "m",
597 "k",
598 "g",
599 "v",
600 "h",
601 "f",
602 "u",
603 "p",
604 "ä",
605 "c",
606 "b",
607 "ö",
608 "å",
609 "y",
610 "j",
611 "x",
612 ],
613 "Chinese": [
614 "的",
615 "一",
616 "是",
617 "不",
618 "了",
619 "在",
620 "人",
621 "有",
622 "我",
623 "他",
624 "这",
625 "个",
626 "们",
627 "中",
628 "来",
629 "上",
630 "大",
631 "为",
632 "和",
633 "国",
634 "地",
635 "到",
636 "以",
637 "说",
638 "时",
639 "要",
640 "就",
641 "出",
642 "会",
643 "可",
644 "也",
645 "你",
646 "对",
647 "生",
648 "能",
649 "而",
650 "子",
651 "那",
652 "得",
653 "于",
654 "着",
655 "下",
656 "自",
657 "之",
658 "年",
659 "过",
660 "发",
661 "后",
662 "作",
663 "里",
664 "用",
665 "道",
666 "行",
667 "所",
668 "然",
669 "家",
670 "种",
671 "事",
672 "成",
673 "方",
674 "多",
675 "经",
676 "么",
677 "去",
678 "法",
679 "学",
680 "如",
681 "都",
682 "同",
683 "现",
684 "当",
685 "没",
686 "动",
687 "面",
688 "起",
689 "看",
690 "定",
691 "天",
692 "分",
693 "还",
694 "进",
695 "好",
696 "小",
697 "部",
698 "其",
699 "些",
700 "主",
701 "样",
702 "理",
703 "心",
704 "她",
705 "本",
706 "前",
707 "开",
708 "但",
709 "因",
710 "只",
711 "从",
712 "想",
713 "实",
714 ],
715 "Ukrainian": [
716 "о",
717 "а",
718 "н",
719 "і",
720 "и",
721 "р",
722 "в",
723 "т",
724 "е",
725 "с",
726 "к",
727 "л",
728 "у",
729 "д",
730 "м",
731 "п",
732 "з",
733 "я",
734 "ь",
735 "б",
736 "г",
737 "й",
738 "ч",
739 "х",
740 "ц",
741 "ї",
742 ],
743 "Norwegian": [
744 "e",
745 "r",
746 "n",
747 "t",
748 "a",
749 "s",
750 "i",
751 "o",
752 "l",
753 "d",
754 "g",
755 "k",
756 "m",
757 "v",
758 "f",
759 "p",
760 "u",
761 "b",
762 "h",
763 "å",
764 "y",
765 "j",
766 "ø",
767 "c",
768 "æ",
769 "w",
770 ],
771 "Finnish": [
772 "a",
773 "i",
774 "n",
775 "t",
776 "e",
777 "s",
778 "l",
779 "o",
780 "u",
781 "k",
782 "ä",
783 "m",
784 "r",
785 "v",
786 "j",
787 "h",
788 "p",
789 "y",
790 "d",
791 "ö",
792 "g",
793 "c",
794 "b",
795 "f",
796 "w",
797 "z",
798 ],
799 "Vietnamese": [
800 "n",
801 "h",
802 "t",
803 "i",
804 "c",
805 "g",
806 "a",
807 "o",
808 "u",
809 "m",
810 "l",
811 "r",
812 "à",
813 "đ",
814 "s",
815 "e",
816 "v",
817 "p",
818 "b",
819 "y",
820 "ư",
821 "d",
822 "á",
823 "k",
824 "ộ",
825 "ế",
826 ],
827 "Czech": [
828 "o",
829 "e",
830 "a",
831 "n",
832 "t",
833 "s",
834 "i",
835 "l",
836 "v",
837 "r",
838 "k",
839 "d",
840 "u",
841 "m",
842 "p",
843 "í",
844 "c",
845 "h",
846 "z",
847 "á",
848 "y",
849 "j",
850 "b",
851 "ě",
852 "é",
853 "ř",
854 ],
855 "Hungarian": [
856 "e",
857 "a",
858 "t",
859 "l",
860 "s",
861 "n",
862 "k",
863 "r",
864 "i",
865 "o",
866 "z",
867 "á",
868 "é",
869 "g",
870 "m",
871 "b",
872 "y",
873 "v",
874 "d",
875 "h",
876 "u",
877 "p",
878 "j",
879 "ö",
880 "f",
881 "c",
882 ],
883 "Korean": [
884 "이",
885 "다",
886 "에",
887 "의",
888 "는",
889 "로",
890 "하",
891 "을",
892 "가",
893 "고",
894 "지",
895 "서",
896 "한",
897 "은",
898 "기",
899 "으",
900 "년",
901 "대",
902 "사",
903 "시",
904 "를",
905 "리",
906 "도",
907 "인",
908 "스",
909 "일",
910 ],
911 "Indonesian": [
912 "a",
913 "n",
914 "e",
915 "i",
916 "r",
917 "t",
918 "u",
919 "s",
920 "d",
921 "k",
922 "m",
923 "l",
924 "g",
925 "p",
926 "b",
927 "o",
928 "h",
929 "y",
930 "j",
931 "c",
932 "w",
933 "f",
934 "v",
935 "z",
936 "x",
937 "q",
938 ],
939 "Turkish": [
940 "a",
941 "e",
942 "i",
943 "n",
944 "r",
945 "l",
946 "ı",
947 "k",
948 "d",
949 "t",
950 "s",
951 "m",
952 "y",
953 "u",
954 "o",
955 "b",
956 "ü",
957 "ş",
958 "v",
959 "g",
960 "z",
961 "h",
962 "c",
963 "p",
964 "ç",
965 "ğ",
966 ],
967 "Romanian": [
968 "e",
969 "i",
970 "a",
971 "r",
972 "n",
973 "t",
974 "u",
975 "l",
976 "o",
977 "c",
978 "s",
979 "d",
980 "p",
981 "m",
982 "ă",
983 "f",
984 "v",
985 "î",
986 "g",
987 "b",
988 "ș",
989 "ț",
990 "z",
991 "h",
992 "â",
993 "j",
994 ],
995 "Farsi": [
996 "ا",
997 "ی",
998 "ر",
999 "د",
1000 "ن",
1001 "ه",
1002 "و",
1003 "م",
1004 "ت",
1005 "ب",
1006 "س",
1007 "ل",
1008 "ک",
1009 "ش",
1010 "ز",
1011 "ف",
1012 "گ",
1013 "ع",
1014 "خ",
1015 "ق",
1016 "ج",
1017 "آ",
1018 "پ",
1019 "ح",
1020 "ط",
1021 "ص",
1022 ],
1023 "Arabic": [
1024 "ا",
1025 "ل",
1026 "ي",
1027 "م",
1028 "و",
1029 "ن",
1030 "ر",
1031 "ت",
1032 "ب",
1033 "ة",
1034 "ع",
1035 "د",
1036 "س",
1037 "ف",
1038 "ه",
1039 "ك",
1040 "ق",
1041 "أ",
1042 "ح",
1043 "ج",
1044 "ش",
1045 "ط",
1046 "ص",
1047 "ى",
1048 "خ",
1049 "إ",
1050 ],
1051 "Danish": [
1052 "e",
1053 "r",
1054 "n",
1055 "t",
1056 "a",
1057 "i",
1058 "s",
1059 "d",
1060 "l",
1061 "o",
1062 "g",
1063 "m",
1064 "k",
1065 "f",
1066 "v",
1067 "u",
1068 "b",
1069 "h",
1070 "p",
1071 "å",
1072 "y",
1073 "ø",
1074 "æ",
1075 "c",
1076 "j",
1077 "w",
1078 ],
1079 "Serbian": [
1080 "а",
1081 "и",
1082 "о",
1083 "е",
1084 "н",
1085 "р",
1086 "с",
1087 "у",
1088 "т",
1089 "к",
1090 "ј",
1091 "в",
1092 "д",
1093 "м",
1094 "п",
1095 "л",
1096 "г",
1097 "з",
1098 "б",
1099 "a",
1100 "i",
1101 "e",
1102 "o",
1103 "n",
1104 "ц",
1105 "ш",
1106 ],
1107 "Lithuanian": [
1108 "i",
1109 "a",
1110 "s",
1111 "o",
1112 "r",
1113 "e",
1114 "t",
1115 "n",
1116 "u",
1117 "k",
1118 "m",
1119 "l",
1120 "p",
1121 "v",
1122 "d",
1123 "j",
1124 "g",
1125 "ė",
1126 "b",
1127 "y",
1128 "ų",
1129 "š",
1130 "ž",
1131 "c",
1132 "ą",
1133 "į",
1134 ],
1135 "Slovene": [
1136 "e",
1137 "a",
1138 "i",
1139 "o",
1140 "n",
1141 "r",
1142 "s",
1143 "l",
1144 "t",
1145 "j",
1146 "v",
1147 "k",
1148 "d",
1149 "p",
1150 "m",
1151 "u",
1152 "z",
1153 "b",
1154 "g",
1155 "h",
1156 "č",
1157 "c",
1158 "š",
1159 "ž",
1160 "f",
1161 "y",
1162 ],
1163 "Slovak": [
1164 "o",
1165 "a",
1166 "e",
1167 "n",
1168 "i",
1169 "r",
1170 "v",
1171 "t",
1172 "s",
1173 "l",
1174 "k",
1175 "d",
1176 "m",
1177 "p",
1178 "u",
1179 "c",
1180 "h",
1181 "j",
1182 "b",
1183 "z",
1184 "á",
1185 "y",
1186 "ý",
1187 "í",
1188 "č",
1189 "é",
1190 ],
1191 "Hebrew": [
1192 "י",
1193 "ו",
1194 "ה",
1195 "ל",
1196 "ר",
1197 "ב",
1198 "ת",
1199 "מ",
1200 "א",
1201 "ש",
1202 "נ",
1203 "ע",
1204 "ם",
1205 "ד",
1206 "ק",
1207 "ח",
1208 "פ",
1209 "ס",
1210 "כ",
1211 "ג",
1212 "ט",
1213 "צ",
1214 "ן",
1215 "ז",
1216 "ך",
1217 ],
1218 "Bulgarian": [
1219 "а",
1220 "и",
1221 "о",
1222 "е",
1223 "н",
1224 "т",
1225 "р",
1226 "с",
1227 "в",
1228 "л",
1229 "к",
1230 "д",
1231 "п",
1232 "м",
1233 "з",
1234 "г",
1235 "я",
1236 "ъ",
1237 "у",
1238 "б",
1239 "ч",
1240 "ц",
1241 "й",
1242 "ж",
1243 "щ",
1244 "х",
1245 ],
1246 "Croatian": [
1247 "a",
1248 "i",
1249 "o",
1250 "e",
1251 "n",
1252 "r",
1253 "j",
1254 "s",
1255 "t",
1256 "u",
1257 "k",
1258 "l",
1259 "v",
1260 "d",
1261 "m",
1262 "p",
1263 "g",
1264 "z",
1265 "b",
1266 "c",
1267 "č",
1268 "h",
1269 "š",
1270 "ž",
1271 "ć",
1272 "f",
1273 ],
1274 "Hindi": [
1275 "क",
1276 "र",
1277 "स",
1278 "न",
1279 "त",
1280 "म",
1281 "ह",
1282 "प",
1283 "य",
1284 "ल",
1285 "व",
1286 "ज",
1287 "द",
1288 "ग",
1289 "ब",
1290 "श",
1291 "ट",
1292 "अ",
1293 "ए",
1294 "थ",
1295 "भ",
1296 "ड",
1297 "च",
1298 "ध",
1299 "ष",
1300 "इ",
1301 ],
1302 "Estonian": [
1303 "a",
1304 "i",
1305 "e",
1306 "s",
1307 "t",
1308 "l",
1309 "u",
1310 "n",
1311 "o",
1312 "k",
1313 "r",
1314 "d",
1315 "m",
1316 "v",
1317 "g",
1318 "p",
1319 "j",
1320 "h",
1321 "ä",
1322 "b",
1323 "õ",
1324 "ü",
1325 "f",
1326 "c",
1327 "ö",
1328 "y",
1329 ],
1330 "Thai": [
1331 "า",
1332 "น",
1333 "ร",
1334 "อ",
1335 "ก",
1336 "เ",
1337 "ง",
1338 "ม",
1339 "ย",
1340 "ล",
1341 "ว",
1342 "ด",
1343 "ท",
1344 "ส",
1345 "ต",
1346 "ะ",
1347 "ป",
1348 "บ",
1349 "ค",
1350 "ห",
1351 "แ",
1352 "จ",
1353 "พ",
1354 "ช",
1355 "ข",
1356 "ใ",
1357 ],
1358 "Greek": [
1359 "α",
1360 "τ",
1361 "ο",
1362 "ι",
1363 "ε",
1364 "ν",
1365 "ρ",
1366 "σ",
1367 "κ",
1368 "η",
1369 "π",
1370 "ς",
1371 "υ",
1372 "μ",
1373 "λ",
1374 "ί",
1375 "ό",
1376 "ά",
1377 "γ",
1378 "έ",
1379 "δ",
1380 "ή",
1381 "ω",
1382 "χ",
1383 "θ",
1384 "ύ",
1385 ],
1386 "Tamil": [
1387 "க",
1388 "த",
1389 "ப",
1390 "ட",
1391 "ர",
1392 "ம",
1393 "ல",
1394 "ன",
1395 "வ",
1396 "ற",
1397 "ய",
1398 "ள",
1399 "ச",
1400 "ந",
1401 "இ",
1402 "ண",
1403 "அ",
1404 "ஆ",
1405 "ழ",
1406 "ங",
1407 "எ",
1408 "உ",
1409 "ஒ",
1410 "ஸ",
1411 ],
1412 "Kazakh": [
1413 "а",
1414 "ы",
1415 "е",
1416 "н",
1417 "т",
1418 "р",
1419 "л",
1420 "і",
1421 "д",
1422 "с",
1423 "м",
1424 "қ",
1425 "к",
1426 "о",
1427 "б",
1428 "и",
1429 "у",
1430 "ғ",
1431 "ж",
1432 "ң",
1433 "з",
1434 "ш",
1435 "й",
1436 "п",
1437 "г",
1438 "ө",
1439 ],
1440}