experimental multilingual idea

whylabs · richard-rogers · Oct 26, 2023 · Oct 26, 2023 · 53f66172865193869691d3a1f0c4dc89e7ae2d56 · FelipeAdachi
commit 53f66172865193869691d3a1f0c4dc89e7ae2d56
diff --git a/langkit/all_metrics.py b/langkit/all_metrics.py
@@ -1,4 +1,4 @@
-from typing import Optional
+from typing import List, Optional
 from whylogs.experimental.core.udf_schema import udf_schema
 from whylogs.core.schema import DeclarativeSchema
 
@@ -13,14 +13,15 @@
 from langkit import input_output
 
 
-def init(config: Optional[LangKitConfig] = None) -> DeclarativeSchema:
-    injections.init(config=config)
-    topics.init(config=config)
-    regexes.init(config=config)
-    sentiment.init(config=config)
-    textstat.init(config=config)
-    themes.init(config=config)
-    toxicity.init(config=config)
-    input_output.init(config=config)
-    text_schema = udf_schema()
+def init(languages: List[str] = ["en"], config: Optional[LangKitConfig] = None) -> DeclarativeSchema:
+    for language in langauges:
+        injections.init(language, config=config)
+        topics.init(language, config=config)
+        regexes.init(language, config=config)
+        sentiment.init(language, config=config)
+        textstat.init(language, config=config)
+        themes.init(language, config=config)
+        toxicity.init(language, config=config)
+        input_output.init(language, config=config)
+    text_schema = udf_schema(chained_schemas=languages)
     return text_schema
diff --git a/langkit/count_regexes.py b/langkit/count_regexes.py
@@ -44,23 +44,26 @@ def _unregister():
     _registered = set()
 
 
-def _register_udfs():
+def _register_udfs(language: str):
     global _registered
     _unregister()
     regex_groups = pattern_loader.get_regex_groups()
     if regex_groups is not None:
         for column in [prompt_column, response_column]:
             for group in regex_groups:
-                udf_name = f"{column}.{group['name']}_count"
+                udf_name = f"{language}.{column}.{group['name']}_count"
                 register_dataset_udf(
                     [column],
                     udf_name=udf_name,
+                    schema_name=language
                 )(wrapper(group, column))
                 _registered.add(udf_name)
 
 
 def init(
-    pattern_file_path: Optional[str] = None, config: Optional[LangKitConfig] = None
+    language: str = "en",
+    pattern_file_path: Optional[str] = None,
+    config: Optional[LangKitConfig] = None
 ):
     config = deepcopy(config or lang_config)
     if pattern_file_path:
@@ -70,7 +73,7 @@ def init(
     pattern_loader = PatternLoader(config)
     pattern_loader.update_patterns()
 
-    _register_udfs()
+    _register_udfs(language)
 
 
 init()
diff --git a/langkit/injections.py b/langkit/injections.py
@@ -23,7 +23,21 @@ def download_embeddings(url):
     return array
 
 
+def injection(prompt: Union[Dict[str, List], pd.DataFrame]) -> Union[List, pd.Series]:
+    global _transformer_model
+    global _index_embeddings
+    if _transformer_model is None:
+        raise ValueError("Injections - transformer model not initialized")
+    embeddings = _transformer_model.encode(prompt[_prompt])
+    faiss.normalize_L2(embeddings)
+    if _index_embeddings is None:
+        raise ValueError("Injections - index embeddings not initialized")
+    dists, _ = _index_embeddings.search(x=embeddings, k=1)
+    return dists.flatten().tolist()
+
+
 def init(
+    language: str = "en",
     transformer_name: Optional[str] = None,
     version: Optional[str] = None,
     config: Optional[LangKitConfig] = None,
@@ -73,19 +87,11 @@ def init(
             f"Injections - unable to deserialize index to {embeddings_path}. Error: {deserialization_error}"
         )
 
-
-@register_dataset_udf([_prompt], f"{_prompt}.injection")
-def injection(prompt: Union[Dict[str, List], pd.DataFrame]) -> Union[List, pd.Series]:
-    global _transformer_model
-    global _index_embeddings
-    if _transformer_model is None:
-        raise ValueError("Injections - transformer model not initialized")
-    embeddings = _transformer_model.encode(prompt[_prompt])
-    faiss.normalize_L2(embeddings)
-    if _index_embeddings is None:
-        raise ValueError("Injections - index embeddings not initialized")
-    dists, _ = _index_embeddings.search(x=embeddings, k=1)
-    return dists.flatten().tolist()
+    register_dataset_udf(
+        [_prompt],
+        udf_name=f"{language}{_prompt}.injection",
+        schema_name=language
+    )(injection)
 
 
 init()
diff --git a/langkit/input_output.py b/langkit/input_output.py
@@ -16,22 +16,6 @@
 diagnostic_logger = getLogger(__name__)
 
 
-def init(
-    transformer_name: Optional[str] = None,
-    custom_encoder: Optional[Callable] = None,
-    config: Optional[LangKitConfig] = None,
-):
-    config = config or deepcopy(lang_config)
-    global _transformer_model
-    if transformer_name is None and custom_encoder is None:
-        transformer_name = config.transformer_name
-    _transformer_model = Encoder(transformer_name, custom_encoder)
-
-
-init()
-
-
-@register_dataset_udf([_prompt, _response], f"{_response}.relevance_to_{_prompt}")
 def prompt_response_similarity(text):
     global _transformer_model
 
@@ -53,3 +37,25 @@ def prompt_response_similarity(text):
             )
             series_result.append(None)
     return series_result
+
+
+def init(
+    language: str = "en"
+    transformer_name: Optional[str] = None,
+    custom_encoder: Optional[Callable] = None,
+    config: Optional[LangKitConfig] = None,
+):
+    config = config or deepcopy(lang_config)
+    global _transformer_model
+    if transformer_name is None and custom_encoder is None:
+        transformer_name = config.transformer_name
+    _transformer_model = Encoder(transformer_name, custom_encoder)
+    register_dataset_udf(
+        [_prompt, _response],
+        f"{language}.{_response}.relevance_to_{_prompt}",
+        schema_name=language
+    )(prompt_response_similarity)
+
+
+init()
+
diff --git a/langkit/light_metrics.py b/langkit/light_metrics.py
@@ -1,4 +1,4 @@
-from typing import Optional
+from typing import List, Optional
 from whylogs.experimental.core.udf_schema import udf_schema
 from whylogs.core.schema import DeclarativeSchema
 
@@ -7,9 +7,10 @@
 from langkit import textstat
 
 
-def init(config: Optional[LangKitConfig] = None) -> DeclarativeSchema:
-    regexes.init(config=config)
-    textstat.init(config=config)
+def init(languages: List[str] = ["en"], config: Optional[LangKitConfig] = None) -> DeclarativeSchema:
+    for language in languages:
+    regexes.init(language, config=config)
+    textstat.init(language, config=config)
 
-    text_schema = udf_schema()
+    text_schema = udf_schema(chained_schemas=languages)
     return text_schema
diff --git a/langkit/llm_metrics.py b/langkit/llm_metrics.py
@@ -1,6 +1,6 @@
 from . import LangKitConfig
 from logging import getLogger
-from typing import Optional
+from typing import List, Optional
 from whylogs.experimental.core.udf_schema import udf_schema
 from whylogs.core.schema import DeclarativeSchema
 
@@ -19,13 +19,14 @@
     )
 
 
-def init(config: Optional[LangKitConfig] = None) -> DeclarativeSchema:
-    regexes.init(config=config)
-    sentiment.init(config=config)
-    textstat.init(config=config)
-    themes.init(config=config)
-    toxicity.init(config=config)
-    input_output.init(config=config)
+def init(languages: List[str] = ["en"], config: Optional[LangKitConfig] = None) -> DeclarativeSchema:
+    for language in languages:
+        regexes.init(language, config=config)
+        sentiment.init(language, config=config)
+        textstat.init(language, config=config)
+        themes.init(language, config=config)
+        toxicity.init(language, config=config)
+        input_output.init(language, config=config)
 
-    text_schema = udf_schema()
+    text_schema = udf_schema(chained_schemas = languages)
     return text_schema
diff --git a/langkit/nlp_scores.py b/langkit/nlp_scores.py
@@ -19,7 +19,7 @@
 _meteor_registered = False
 
 
-def _register_score_udfs():
+def _register_score_udfs(language: str):
     global _bleu_registered, _rouge_registered, _meteor_registered
 
     if _corpus:
@@ -30,7 +30,8 @@ def _register_score_udfs():
 
                 @register_dataset_udf(
                     [response_column],
-                    udf_name=f"{response_column}.bleu_score",
+                    udf_name=f"{language}.{response_column}.bleu_score",
+                    schema_name=language
                 )
                 def bleu_score(text):
                     result = []
@@ -48,7 +49,8 @@ def bleu_score(text):
 
                 @register_dataset_udf(
                     [response_column],
-                    udf_name=f"{response_column}.rouge_score",
+                    udf_name=f"{language}.{response_column}.rouge_score",
+                    schema_name=language
                 )
                 def rouge_score(text):
                     result = []
@@ -68,7 +70,8 @@ def rouge_score(text):
 
                 @register_dataset_udf(
                     [response_column],
-                    udf_name=f"{response_column}.meteor_score",
+                    udf_name=f"{language}.{response_column}.meteor_score",
+                    schema_name=language
                 )
                 def meteor_score(text):
                     result = []
@@ -87,6 +90,7 @@ def meteor_score(text):
 
 
 def init(
+    language: str = "en",
     corpus: Optional[str] = None,
     scores: Set[str] = set(),
     rouge_type: str = "",
@@ -100,7 +104,7 @@ def init(
     _scores = list(scores or config.nlp_scores)
     _rouge_type = rouge_type or config.rouge_type
 
-    _register_score_udfs()
+    _register_score_udfs(language)
 
 
 init()
diff --git a/langkit/regexes.py b/langkit/regexes.py
@@ -38,7 +38,7 @@ def wrappee(text):
 _registered = False
 
 
-def _register_udfs():
+def _register_udfs(language: str):
     global _registered
     if _registered:
         return
@@ -48,12 +48,14 @@ def _register_udfs():
         for column in [prompt_column, response_column]:
             register_dataset_udf(
                 [column],
-                udf_name=f"{column}.has_patterns",
+                udf_name=f"{language}.{column}.has_patterns",
+                schema_name=language,
                 metrics=[MetricSpec(FrequentItemsMetric)],
             )(_wrapper(column))
 
 
 def init(
+    language: str = "en",
     pattern_file_path: Optional[str] = None, config: Optional[LangKitConfig] = None
 ):
     config = deepcopy(config or lang_config)
@@ -64,7 +66,7 @@ def init(
     pattern_loader = PatternLoader(config)
     pattern_loader.update_patterns()
 
-    _register_udfs()
+    _register_udfs(language)
 
 
 init()
diff --git a/langkit/sentiment.py b/langkit/sentiment.py
@@ -19,17 +19,15 @@ def sentiment_nltk(text: str) -> float:
     return _sentiment_analyzer.polarity_scores(text)["compound"]
 
 
-@register_dataset_udf([_prompt], udf_name=f"{_prompt}.sentiment_nltk")
 def prompt_sentiment(text):
     return [sentiment_nltk(t) for t in text[_prompt]]
 
 
-@register_dataset_udf([_response], udf_name=f"{_response}.sentiment_nltk")
 def response_sentiment(text):
     return [sentiment_nltk(t) for t in text[_response]]
 
 
-def init(lexicon: Optional[str] = None, config: Optional[LangKitConfig] = None):
+def init(language: str = "en", lexicon: Optional[str] = None, config: Optional[LangKitConfig] = None):
     import nltk
     from nltk.sentiment import SentimentIntensityAnalyzer
 
@@ -41,6 +39,16 @@ def init(lexicon: Optional[str] = None, config: Optional[LangKitConfig] = None):
         _nltk_downloaded = True
 
     _sentiment_analyzer = SentimentIntensityAnalyzer()
+    register_dataset_udf(
+        [_prompt],
+        udf_name=f"{language}.{_prompt}.sentiment_nltk",
+        schema_name=language
+    )(prompt_sentiment)
+    register_dataset_udf(
+        [_response],
+        udf_name=f"{language}.{_response}.sentiment_nltk",
+        schema_name=language
+    )(response_sentiment)
 
 
 init()