Merge branch 'develop' into faster_whisper

2024-09-10 15:17:53 +00:00
parent 51bf211d27 18666adda4
commit 929f916077
20 changed files with 386 additions and 267 deletions
@@ -79,6 +79,8 @@ def cli():
                        choices=sorted(
                            LANGUAGES.keys()) + sorted([k.title() for k in TO_LANGUAGE_CODE.keys()]),
                        help="Language spoken in the audio. Specify None to perform language detection.")
+    parser.add_argument("--num-speakers", type=int, default=2,
+                        help="Number of speakers in the audio.")

    args = parser.parse_args()

@@ -117,8 +119,13 @@ def cli():
                else:
                    task = "transcribe"

-                out = model.autotranscribe(audio, task=task, language=arg_dict.pop(
-                    "language"), verbose=arg_dict.pop("verbose_output"))
+                out = model.autotranscribe(
+                        audio, 
+                        task=task, 
+                        language=arg_dict.pop("language"), 
+                        verbose=arg_dict.pop("verbose_output"),
+                        num_speakers=arg_dict.pop("num_speakers")
+                        )
                basename = audio.split("/")[-1].split(".")[0]
                print(f'Saving {basename}.{out_format} to {out_folder}')
                out.save(os.path.join(
@@ -1,6 +1,5 @@
 import os
 import yaml
-from pyannote.audio.core.model import CACHE_DIR as PYANNOTE_CACHE_DIR
 from argparse import Action
 from ast import literal_eval

@@ -8,9 +7,10 @@ CACHE_DIR = os.getenv(
    "AUTOT_CACHE",
    os.path.expanduser("~/.cache/torch/models"),
 )
-
-if CACHE_DIR != PYANNOTE_CACHE_DIR:
-    os.environ["PYANNOTE_CACHE"] = os.path.join(CACHE_DIR, "pyannote")
+os.getenv(
+    "PYANNOTE_CACHE",
+    os.path.join(CACHE_DIR, "pyannote"),
+)

 WHISPER_DEFAULT_PATH = os.path.join(CACHE_DIR, "whisper")
 PYANNOTE_DEFAULT_PATH = os.path.join(CACHE_DIR, "pyannote")