Seminarium Modelowania Języka i Analizy Dyskursu

Od 1 stycznia 2022 ta strona nie będzie już aktualiowana. Zapraszamy na nową stronę: https://wmi.amu.edu.pl/zycie-naukowe/wyklady-i-seminaria/seminarium-modelowania-jezyka-i-analizy-dyskursu-seminarium-grupy-badawczej-zakladu-sztucznej-inteligencji

Wspólne seminarium grup Modelowania Języka i Analizy Dyskursu odbywa się we wtorki o godz. 11:00.

Zapraszamy wszystkich zainteresowanych tematyką uczenia maszynowego i przetwarzania języka naturalnego.

Seminarium odbywa się zdalnie za pośrednictwem platformy MS Teams – w sprawie szczegółów proszę kontaktować się z Pawłem Skórzewskim: pawel.skorzewski@amu.edu.pl

Chairmanem seminarium jest Filip Graliński, natomiast organizatorem seminarium jest Paweł Skórzewski.


14.12.2021
Marek Kubis
Analiza sieci społecznych pozyskiwanych z utworów literackich przy użyciu narzędzi przetwarzania języka naturalnego
W wystąpieniu przedstawię wyniki dotyczące ilościowej analizy sieci postaci indukowanych z polskich powieści. Omówię sposób przygotowania korpusu oraz procedurę ekstrakcji sieci. Przedstawię obserwacje dotyczące własności strukturalnych indukowanych sieci oraz skonfrontuję je z wynikami, które uzyskano dla powieści anglojęzycznych. Porównam sieci pozyskane z tekstów XIX-wiecznych z sieciami powieści XX-wiecznych.

30.11.2021
Krzysztof Jurkiewicz
Preprocessing danych do diachronicznego przetwarzania języka przy użyciu funkcji MinHash
Na seminarium opowiem o tym, jak działa funkcja MinHash i jak można ją wykorzystać w przetwarzaniu języka naturalnego, oraz o swojej pracy w projekcie DARIAH.

09.11.2021
Rafał Jaworski
Analiza dopasowań słów i fraz pomiędzy zdaniem źródłowym a tłumaczeniem w czasie rzeczywistym
Od wielu lat w dziedzinie przetwarzania języka naturalnego znane są algorytmy analizujące dopasowania na poziomie słów i fraz pomiędzy zdaniem źródłowym i docelowym. Prym wśród nich wiodą algorytmy oparte na modelu IBM, tj. Giza oraz fast_align. Choć informacja o dopasowaniach słów i fraz nie jest w dzisiejszych czasach niezbędna w kontekście trenowania silników tłumaczenia maszynowego, znajduje ona szerokie zastosowanie w wielu funkcjonalnościach z dziedziny wspomagania tłumaczenia. W tej sferze najważniejsze są: prezycja dopasowań słów oraz możliwość uruchomienia dopasowania w czasie rzeczywistym, bez wcześniejszej fazy trenowania. Podczas wystąpienia przedstawię framework algorytmu, który jest w stanie sprostać tym oczekiwaniom oraz możliwości jego zastosowania.

26.10.2021
Jakub Pokrywka
Wyniki badań diachronicznych — część 3
Na seminarium opowiem o moich wynikach badań nad modelami diachronicznymi. Modele uwzględniają czas nie tylko w ujęciu ciągłym, ale również cyklicznym (miesiące, dni tygodnia). Przedstawię także artykuł Google Research “Time-Aware Language Models as Temporal Knowledge Bases”.

19.10.2021
Karol Kaczmarek
Zero-shot learning
I will present an alternative way of zero-shot learning in language modeling.

12.10.2021
Filip Graliński
Wrażenia z konferencji ICDAR, czyli o trendach w przetwarzaniu dokumentów i nie tylko
W czasie wystąpienia opowiem o wrażeniach z konferencji ICDAR2021, która odbyła się kilka tygodni temu w Lozannie. Na tle tej konferencji przedstawię trendy, które zarysowują się w dziedzinie przetwarzania dokumentów (zarówno historycznych, jak i biznesowych). W tym celu omówię wybrane artykuły prezentowane na konferencji. Przedstawiane tendencje, jak twierdzę, są wspólne dla prawie wszystkich zastosowań uczenia maszynowego i sztucznej inteligencji.

05.10.2021
Tomasz Ziętkiewicz
Model przywracania interpunkcji zgłoszony do wyzwania Poleval 2021 Task 1: Punctuation restoration from read text
Opowiem o moim zgłoszeniu wysłanym na wyzwanie Poleval 2021, zadanie 1. Zadanie polegało na stworzeniu modelu przywracającego znaki interpunkcyjne w tekście. Opiszę moje podejście do problemu, które polegało na użyciu taggera korzystającego z pretrenowanej sieci herBERT. Omówię problemy, które pojawiły się podczas prac nad wyzwaniem i omówię wyniki.

31.08.2021
Gabriela Pałka
Vision model for document understanding
During my presentation, I will talk about architectures of vision models (U-Net, ResNet, FPN). There will also be a quick reminder of computer vision terminology (main tasks, convolutions, max pooling operation and so on).

24.08.2021
Paweł Dyda
Selektywny przegląd artykułów naukowych dotyczących OCR
Przedstawię tematykę optycznego rozpoznawania znaków: podział, jak to się robi współcześnie (systemy OCR), wybrane współczesne artykuły naukowe nt. rozpoznawania znaków.

17.08.2021
Michał Junczyk
Zarządzanie korpusami mowy ASR – przegląd najnowszej literatury

03.08.2021
Artur Nowakowski
Constraining Terminology in Neural Machine Translation
I will present various methods for lexicon incorporation and constraining terminology in Neural Machine Translation, including my own research on constraining terminology in morphologically rich languages.

06.07.2021
Tomasz Dwojak
Efficient Algorithms for Hybrid Neural Machine Translation
Omówione zostaną współczesne metody tłumaczenia automatycznego, a w szczególności relacje pomiędzy podejściem statystycznym i neuronowym.

29.06.2021
Dawid Jurkiewicz
Measuring the State of Document Understanding
Understanding documents with rich-layouts plays a vital role in digitization and hyper-automation but remains a challenging topic in the NLP research community. Additionally, the lack of a commonly accepted benchmark made it difficult to quantify progress in the domain. To empower research in Document Understanding, we present a suite of tasks that fulfill the highest quality, difficulty, and licensing criteria. The benchmark includes Visual Question Answering, Key Information Extraction, and Machine Reading Comprehension tasks over various document domains, and layouts featuring tables, graphs, lists, and infographics. The current study reports systematic baselines making use of recent advances in layout-aware language modeling. To support adoption by other researchers, both the benchmarks and reference implementations will be shortly released.

15.06.2021
Filip Graliński
Summer of Challenges
I will present a number of new ML challenges that are available at various Gonito instances. The challenges represent a wide range of NLP tasks, from binary classification through key information extraction to quality estimation, spanning such NLP branches as handwriting recognition, OCR and machine translation. Also issues related to the questions of proper evaluation and replicability will be discussed.

08.06.2021
Wojciech Włodarczyk
Feedback in crowdsourcing – literature review
As part of the presentation, an up-to-date overview of trends in the use of feedback in crowdsourcing tasks will be presented. Presentation will cover examples from both research related to data acquisition as well as examples of applying the above methods in everyday life.

01.06.2021
Jolanta Bachan
Perception tests for phonetic convergence evaluation
In the seminar I will show the results of 3 speech perception tests performed for phonetic convergence evaluation between 2 speakers in the Harmonia project. In the tests, natural and resynthesised stimuli were used and evaluated by 50 people in an online survey.

25.05.2021
Paweł Skórzewski
Metody kompresji modeli części mowy na potrzeby zamiany tekstu na mowę
Porównam modele POS-taggera skompresowane różnymi metodami pod kątem jakości otrzymanego modelu TTS na zbiorach danych złożonych ze zdań w językach francuskim, niemieckim i włoskim. Pokażę, że właściwy dobór metody kompresji znacznie zmniejsza rozmiar modelu bez pogarszania jakości zamiany tekstu na mowę.

18.05.2021
Robert Kwieciński
Jobs Recommendations at OLX: presenting results and published dataset
Porównam kilka różnorodnych modeli filtrowania społecznościowego i opowiem o wynikach uzyskanych na niedawno opublikowanym w tym celu datasecie https://www.kaggle.com/olxdatascience/olx-jobs-interactions

11.05.2021
Aleksander Mendoza-Drosik
Kilka aspektów uczenia przez wzmacnianie
Na podstawie prac Kennetha O. Stanleya.

04.05.2021
Mikołaj Aleksandrzak
Semantic distance

20.04.2021
Tomasz Ziętkiewicz
Model błędów ASR na potrzeby NLU
Opowiem o pracach nad modelem błędów ASR na potrzeby trenowania odpornych na błędy modeli NLU.

13.04.2021
Rafał Jaworski
Wspomaganie badań lingwistycznych przy użyciu metod przetwarzania języka naturalnego i uczenia maszynowego

30.03.2021
Aleksander Mendoza-Drosik
Paper Review: Perceiver: General Perception with Iterative Attention

23.03.2021
Jakub Pokrywka
Wyniki badań diachronicznych — część 2
Opowiem o kontynuacji badań diachronicznych, a w szczególności o wyzwaniach diachronicznych opartych na korpusie Chronicling America.

09.03.2021
Krzysztof Jurkiewicz
Analiza dokonań i rozwoju modeli GPT
W ciągu ostatnich dwóch lat nastąpił znaczny rozwój modeli GPT od OpenAI. Na tym seminarium opowiem o najnowszych modelach, które powstały bazując na GPT.

02.03.2021
Mikołaj Sobkowiak
Język duński jako wyzwanie dla systemów ASR

16.02.2021
Karol Kaczmarek
About distillation, a few words
I will briefly present the knowledge distillation in models based on the Transformer architecture.

09.02.2021
Dawid Jurkiewicz
Locality sensitive hashing based neural networks
Is the era of CPU-based deep learning coming back?

02.02.2021
Michał Junczyk
Systemy i strategie optymalizacji procesu zapewnienia jakości w komercyjnych systemach rozpoznawania mowy (ASR) — część 2

12.01.2021
Maxime Méloux
Compression methods for POS Tagger models and embeddings
I will present various methods of compression for part-of-speech tagger models, which allow to reduce on-disk model size and increase inference speed while preserving model performance as best as possible. I will particularly focus on compression methods for static and dynamic embeddings, such as Flair embeddings (https://www.aclweb.org/anthology/C18-1139).

05.01.2021
Karolin Boczoń
Narzędzie do komputerowej analizy dyskusji na forum

15.12.2020
Tomasz Dwojak
WMT 2020 subiektywnie

08.12.2020
Joanna Siwek
Sztuczna empatia

01.12.2020
Michał Junczyk
Systemy i strategie optymalizacji procesu zapewnienia jakości w komercyjnych systemach rozpoznawania mowy (ASR) — część 1

24.11.2020
Filip Graliński
Szukając dziur w całym — o tym, jak ulepszyć proces pisania
artykułów w LaTeX-u i sprawnie usuwać irytujące usterki
Podczas wystąpienia przedstawiony zostanie zestaw narzędzi usprawniający proces pisania artykułów naukowych w LaTeX-u pod względem: przełączania się między różnymi szablonami, generowania preprintów na arxiv.org, korekty typograficznej, korekty gramatycznej, również neuronowej przy użyciu narzędzia UEDINS.

17.11.2020
Marek Kubis
Geometryczne modele uczenia głębokiego w zastosowaniu do ujednoznaczniania nazw własnych w powieściach

10.11.2020
Kamil Beker
Advent of Code

27.10.2020
Roman Grundkiewicz (Uniwersytet Edynburski / Microsoft)
Efficient neural machine translation
WNGT 2020 Efficiency Task

13.10.2020
Jakub Pokrywka
Wyniki badań diachronicznych

29.09.2020
Karolin Boczoń
Extracting text from silly drawings. Text localisation and OCR in unstructured graphical documents

22.09.2020
Tomasz Ziętkiewicz
Poleval 2020 task 1: Post-editing and rescoring of automatic speech recognition results. Official results

15.09.2020
Rafał Jaworski
Inter-Language Vector Space

08.09.2020
Paweł Skórzewski
Zautomatyzowana normalizacja i analiza tekstów historycznych

25.08.2020
Tomasz Ziętkiewicz
Poleval 2020 task 1: Post-editing and rescoring of automatic speech recognition results. Preliminary results

18.08.2020
Aleksander Mendoza-Drosik
Multitape automata and finite state transducers with lexicographic weights
Finite state transducers, multitape automata and weighted automata have a lot in common. By studying their universal foundations, one can discover some new insights into all of them. The main result presented here is the introduction of lexicographic finite state transducers, that could be seen as intermediate model between multitape automata and weighted transducers. Their most significant advantage is being equivalent, but often exponentially smaller than even smallest nondeterministic automata without weights. Lexicographic transducers were discovered by taking inspiration from Eilenberg’s algebraic approach to automata and Solomonoff’s treatment of a priori probability. Therefore, a quick and concise survey of those topics is presented, prior to introducing lexicographic transducers.

11.08.2020
Wojciech Włodarczyk
Wpływ informacji zwrotnej na jakość danych w crowdsourcingu – wyniki badania

04.08.2020
Jolanta Bachan
Konwergencja fonetyczna w dialogu

21.07.2020
Tomasz Dwojak
Wikireading: on multi-property extraction and beyond
Wikireading jest zbiorem danych, który powstał z połączenia artykułów z Wikipedii z informacjami z portalu Wikidata. Zbiór ten pozwala na ciekawą ekstrakcję informacji, w której szukamy ponad 800 różnych typów danych od miejsca urodzenia osoby, o której jest artykuł, po datę emisji pierwszego odcinka serialu. Na seminarium przedstawię wyniki badań uzyskane przez mój zespół i nasze modyfikacje tego zbioru danych. Pierwsze wyniki zostały opublikowane na Arxiv: https://arxiv.org/pdf/2006.08281.pdf, a wersja rozbudowana wysłana na CONLL 2020.

07.07.2020
Karol Kaczmarek
Sparse Transformers

23.06.2020
Filip Graliński
Wyzwania ekstrakcji informacji

16.06.2020
Karol Górzyński
GPT-3 w skrócie

09.06.2020
Kamil Beker
Przetwarzanie korpusów dźwiękowych jako strumienia danych

02.06.2020
Dawid Jurkiewicz
Detection of propaganda techniques in news articles
SemEval-2020 Task 11

26.05.2020
Krzysztof Jurkiewicz
Oddballness in grammatical error detection

19.05.2020
Mikołaj Aleksandrzak
DVC overview

10.03.2020
Mikołaj Sobkowiak
Rozwój złożoności syntaktycznej w języku duńskim jako obcym

18.02.2020
Michał Junczyk
Active learning in commercial ASR development

11.02.2020
Jakub Pokrywka
Modelowanie diachroniczne – przegląd literatury

04.02.2020
Tomasz Ziętkiewicz
Poleval 2020 task 1: Post-editing and rescoring of automatic speech recognition results. Task description

28.01.2020
Marcin Sikora
Recent advances in single/multichannel speech recognition

21.01.2020
Waldemar Jęśko (PCSS)
Improving speech recognition accuracy of people with speech disorders

14.01.2020
Filip Graliński
Co nowego w GEvalu?
Przedmiotem wystąpienia będzie omówienie nowych funkcji narzędzia ewaluacyjnego GEval: obliczanie górnej granicy wyników, „flagi” metryk, prezentacja wyników w postaci tabelarycznej. Wystąpienie będzie miało charakter krótkich warsztatów, zachęcamy do przyniesienia laptopów.

07.01.2020
Paweł Skórzewski
Noetic end-to-end response selection with supervised neural network based classifiers and unsupervised similarity models
I am going to present a solution for the Noetic End-to-End Response Selection challenge – one of the tasks of the 7th Dialog System Technology Challenge. The goal of the task was to select the most appropriate continuation of a dialogue from a given set of responses. We approached this problem by building an ensemble of supervised neural network based classifiers and unsupervised similarity models. The dialogue continuation is selected according to a score that aggregates the rankings of candidate responses determined by the models in the ensemble.