Researcher affiliation extraction from homepages

Researcher affiliation extraction from homepages

Korpuszok s adatbzisok Korpuszok a nyelvszeti kutatsban 2018. szeptember 14. Angol nyelv korpuszok British National Corpus (BNC) Brit angol ~100M szvegsz rott s beszlt nyelv Automatikus annotci Wall Street Journal (WSJ) zleti nyelv

Egyes rszei kzzel annotlva (morfolgia, szintaxis) Reuters ~100 milli szvegsz dokumentumok, bekezdsek hatrai Gigaword korpusz 2 millird sz Penn TreeBank 5 milli szvegsz szfaji kd szintaktikai elemzs (konstituensfa) Feladatspecifikus korpuszok: CoNLL-2003 (tulajdonnevek), SemEval

(szemantika) nhny szzezer szvegsz Magyar Nemzeti Szvegtr (MNSZ) 187,6 milli szvegsz Sajt, szpirodalom, tudomnyos, hivatalos, szemlyes szvegek Hatron tli nyelvvltozatok is Automatikus sztvezs s szfaji elemzs Gigaword verzi (1 millird szvegsz) http:/corpus.nytud.hu/mnsz Webkorpusz tbb mint 1,48 millird sz (szretlenl, illetve 589 milli megszrt sz) jelenleg a legnagyobb magyar nyelv korpusz 18 milli weboldal (.hu)

http://mokk.bme.hu/resources/web corpus Prhuzamos korpuszok olyan kt- vagy tbbnyelv korpuszok, amelyben egy m s annak egy vagy tbb nyelvre lefordtott vltozatai szerepelnek Bekezds-, mondat- vagy szszinten prhuzamostott szvegek Alkalmazsi lehetsgek: fordtstudomny, kontrasztv nyelvszet, gpi fordts Nhny prhuzamos korpusz Hansard: angol-francia 1984: kzp- s kelet-eurpai nyelvek Hunglish: magyar-angol SzegedParalell: magyar-angol HunOr: magyar-orosz

Szegedi korpuszok Szeged Treebank Szeged Dependencia Treebank Magyar WordNet Bizonytalansgra annotlt korpuszok Tulajdonnvkorpuszok Lemmatizlt tulajdonnevek Tbbszavas kifejezsek korpuszai

Jelents-egyrtelmstett korpusz Kutati adatok HTML korpusza SzegedParalell HunOr Vlemnydetekcis korpusz Kulcsszkinyersi korpuszok HunLearner http://www.inf.u-szeged.hu/rgai/nlp_download Szeged (Dependencia) Treebank 82 000 mondat 1,5 milli szvegsz 230 000 rsjel 6 domn

iskolai fogalmazsok szmtgpes szvegek irodalom jogi szvegek jsgcikkek zleti rvidhrek Kzzel ellenrztt morfolgiai s szintaktikai (konstituens s fggsgi) elemzs, nvelemek, flig kompozicionlis szerkezetek (FX), koreferencia http://www.inf.u-szeged.hu/rgai/SzegedTreebank 1 2 3 4 5 6 7 8

9 10 11 12 13 14 15 16 _ _ _ ELL ELL _ _ 0 0 ROOT ROOT Japnban Japn

Japn N N SubPOS=p|Num=s|Cas=2|NumP=none| PerP=none|NumPd=none SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none 1 1 OBL OBL , , , , , _ _ 1 1 PUNCT PUNCT ahol ahol

ahol R R SubPOS=r|Deg=none|Num=none|Per=none SubPOS=r| Deg=none|Num=none|Per=none 9 9 TLOCY TLOCY 1960-ban 1960 1960 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none| PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 9 9 OBL OBL kzel kzel kzel

R R SubPOS=x|Deg=none|Num=none|Per=none SubPOS=x| Deg=none|Num=none|Per=none 7 7 MODE MODE flmilli flmilli flmilli M M SubPOS=c|Num=s|Cas=n|Form=l|NumP=none| PerP=none|NumPd=none SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none 8 8 ATT ATT vlst vls vls N

N SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none| NumPd=none SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none 9 9 OBJ OBJ mondtak mond mond V V SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n 1 1 ATT ATT ki ki ki R R

SubPOS=p|Deg=none|Num=none|Per=none SubPOS=p| Deg=none|Num=none|Per=none 9 9 PREVERB PREVERB , , , , , _ _ 9 9 PUNCT PUNCT 1990-ben 1990 1990 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none| PerP=none|NumPd=none

SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 1 1 OBL OBL mr mr mr R R SubPOS=x|Deg=none|Num=none|Per=none SubPOS=x| Deg=none|Num=none|Per=none 15 15 MODE MODE 2,6 2,6 2,6 M M SubPOS=f|Num=s|Cas=n|Form=d|NumP=none| PerP=none|NumPd=none

SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none 15 15 NUM NUM millit milli milli M M SubPOS=c|Num=s|Cas=a|Form=l|NumP=none| PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none 1 1 OBJ OBJ . . . . . _

_ 0 0 PUNCT PUNCT WordNet Lexiklis adatbzis Fogalmak hlba rendezve klnfle relcik alapjn Angol: Princeton WordNet (PWN) Ms nyelvekre is: EuroWordNet, BalkaNet stb. Magyar: Hungarian WordNet (HuWN) A HuWN bemutatsa 40 000 synset (ltalnos ontolgia) + 2000 zleti nyelvi, ill. 650 jogi nyelvi synset (szakontolgia) Fnevek Igk Mellknevek

Hatrozszk Alapelv: ahol csak lehet, a PWN-nek megfeleltetni a synseteket http://www.inf.u-szeged.hu/rgai/HuWN Mellknevek a HuWN-ben WSD korpusz Jelents-egyrtelmsts A WordNet ptse mellett elkszlt Szegeden az els (Lexical Sample) tantkorpusz magyarra (finom jelentsmegklnbztets) 39 szalak szalakonknt 300-500 cmkzett plda 6 mellknv: anyagi, l, ers, kpes, pontos, szocilis 21 fnv: civil, csald, let, hz, helyzet, intzmny, iskola, kp, kpvisel, kormny, nap, oldal, orszg, perc, pont, program, szzad, szemly, szervezet, tanr, vilg, vz

12 ige: fgg, hat, jr, kap, kerl, marad, rendelkezik, szerepel, tart, tartozik, tud, vlik http://www.inf.u-szeged.hu/rgai/corpus_hunwsd NE-korpuszok CoNLL-verseny normit kveti ORG / LOC / PER / MISC osztlyok ~220 000 szvegsz (SZK zleti hrek) ~470 000 szvegsz (HVG-cikkek) Sz szerinti (tag-for-tag) Metonimikus jells (tag-for-meaning) http://www.inf.u-szeged.hu/rgai/corpus_ne SzegedParalell Magyar-angol prhuzamos korpusz

Kzzel prhuzamostott bekezds s mondat szinten: nyelvknyvek EU-s szvegek Ktnyelv jsgok irodalom 99.000 mondatszint egysg Egy rsze FX-ekre annotlva http://www.inf.u-szeged.hu/rgai/corpus_paralell Bizonytalansgra annotlt korpuszok BioScope (20K mondat) Orvosi szvegek Biolgiai absztraktok Biolgiai cikkek CoNLL-2010 Shared Task korpuszok (Biolgiai cikkek (18K mondat) + Wikipedia-szcikkek (20K mondat) ) Szeged Uncertainty Corpus jraannotlt CoNLL-2010 + FactBank Egysges annotcis elvek WikiWeasel 2.0: diskurzusszint bizonytalansg

hUnCertainty: magyar korpusz (17K mondat) http://www.inf.u-szeged.hu/rgai/uncertainty AOO lap O O szerint B-doxastic B-doxastic P. O O .OO Mri O O kitart B-doxastic O amellett O O ,OO hogy O O egyltaln O O nem O O emlkszik O O arra O O ,OO hogy O O t O O brki O O is O O

ldzte O O volna O O .OO lltlag B-epistemic B-epistemic azon O O aOO terleten O O ,OO ahol O O aOO vrengzs O O trtnt O O ,OO csak O O aOO gyilkos O O kocsijnak O O aOO kerknyomt O O talltk O O meg O O MWE-korpuszok

Tbbszavas kifejezsek Wiki50 korpusz: 50 angol Wikipedia-szcikk (4700 mondat) MWE-k s NE-k kzzel jellve Szeged Treebankben s SzegedParalell egy rszben FX-ek JRC-Acquis jogi prhuzamos korpuszban FXek angol, nmet, spanyol s magyar nyelven (~100K token minden nyelven) http://www.inf.u-szeged.hu/rgai/mwe Wiki50 HunLearner Kzphalad s halad szint tanulk fogalmazsai Tbbsgben horvt vagy szt anyanyelvek Szmtgpen, sztr s nyelvknyv nlkl rt fogalmazsok 1400 mondat Fnvi morfolgiai hibk jellve

Alanyi/trgyas ragozsi hibk http://www.inf.u-szeged.hu/rgai/hunlearner 1 A a Tf 2 DET T SubPOS=f 2 gyerek gyerek Nc-sn 9 SUBJ N SubPOS=c|Num=s|Cas=n| NumP=none|PerP=none|NumPd=none 3 nagyon nagyon Rx 4 MODE R SubPOS=x|Deg=none 4 okos okos Afp-sn 9 ATT

A SubPOS=f|Deg=p|Num=s|Cas=n| NumP=none|PerP=none|NumPd=none 5 s s Ccsw 4 CONJ C SubPOS=c|Form=s|Coord=w 6 kedves kedves Afp-sn 5 COORD A SubPOS=f|Deg=p|Num=s| Cas=n|NumP=none|PerP=none|NumPd=none 7 s s Ccsw 6 CONJ C SubPOS=c|Form=s|Coord=w 8 jl jl Rxp 7 COORD R

SubPOS=x|Deg=p 9 mkdik mkdik X 0 ROOT X _ 10 a a Tf 11 DET T SubPOS=f 11 kapcsolatnk kapcsolatnk X 9 OBL X _ kapcsolatunk Stem: A Assimilation: 1 Matching: B Suffix number: 1 12 .

. . 0 PUNCT . _ Vlemnydetekcis korpusz Npszavazs a ketts llampolgrsgrl 1294 frumhozzszls Igennel/nemmel szavazna rvnytelenl szavaz nem relevns kategrik szerint felcmkzve http://www.inf.u-szeged.hu/rgai/corpus_forum Szemlyisgjegyek s vlemnyek 500 utazsi blog 5 ticlhoz kapcsoldva Angol nyelv Pozitv s negatv vlemnyek adott dologra vonatkoztatva

Szemlyisgjegyekre utal szvegrszek is jellve Koreferenciakorpusz Azonos referencij elemek sszektse Szeged Treebank szvegeinek egy rsze

Recently Viewed Presentations

 • New Asian Empire Section 1 The Mughal Empire

  New Asian Empire Section 1 The Mughal Empire

  The Mughal Empire Preview Main Idea / Reading Focus Muslim Rule in India A New Empire Faces of History: Akbar Height of the Mughal Empire Quick Facts: Achievements of the Mughal Emperors Map: Mughal Empire During reign, Jahangir came into...
 • Ecosystem Processes - Western Oregon University

  Ecosystem Processes - Western Oregon University

  Food Webs A food web is a model of energy flow in a community. Arrows indicate the direction in which energy flows from one organism to the next. ... Photosynthesis Energy is converted and nutrients are fixed by the process...
 • Facebook for Libraries & Networks

  Facebook for Libraries & Networks

  Thus, he decided instead on building a wall. Hadrian Unlike the Germanic limes, built of wood palisades, the lack of suitable wood in the area required a stone construction [27]; nevertheless, the Western third of the wall, from modern-day Carlisle...
 • Autism - The Ethical Issues

  Autism - The Ethical Issues

  Autism - The Ethical Issues. Tim Cadman, PhD. Introduction. Aim: to introduce the ethical, social and philosophical issues. Overview: Ethical issues. Theoretical background. Medical vs Social conceptions of autism. Human flourishing. Practical questions. Choosing non-autistic children.
 • Chapter 12 Ch 12 Page 520 1 Colligative

  Chapter 12 Ch 12 Page 520 1 Colligative

  Calculate the vapor pressure of a solution made by dissolving 218 g of glucose (molar mass = 180.2 g/mol) in 460 mL of water at 30°C (P. H2O = 31.82 mmHg). Assume the density of the solvent is 1.00 g/mL.
 • Sib-Lulu Project: Drill-Testing the Footwall of the Coulter

  Sib-Lulu Project: Drill-Testing the Footwall of the Coulter

  Long-section along Eskay Creek Mine trend, looking west (north to RHS). Note how northernmost orebodies are much deeper, as they follow the stratigraphy, which is folded about the Eskay Creek anticline, which plunges off to the north. Note also that...
 • Chapter 17

  Chapter 17

  Hideki Tojo Japanese Prime Minister NAME THAT FAVORITE DICTATOR... Write down: a) The name of the Dictator. b) The name of the country that the Dictator is from. - For the following slides (after Charlie Chaplin!). Mao 1 Stalin 2...
 • 6.6 Firewalls Packet Filter (=filtering router) Passes/blocks packets,

  6.6 Firewalls Packet Filter (=filtering router) Passes/blocks packets,

  6.6 Firewalls Packet Filter (=filtering router) Passes/blocks packets, based on IP address and/or port number of source/destination Application gateway (=proxy) All requests/response of certain application must go through its proxy in intranet. Direct access to Internet is forbidden