Initial Commit

This commit is contained in:
vysitor 2025-02-28 18:40:12 +01:00
parent ac74b9797f
commit 9c1ae91afe
62 changed files with 5266 additions and 0 deletions

BIN
src/main/resources/.DS_Store vendored Normal file

Binary file not shown.

View file

@ -0,0 +1 @@
port=5876

View file

@ -0,0 +1,7 @@
localserver_x_nur_testing=mongodb://localhost:27017
remote_host = ppr.lehre.texttechnologylab.org
remote_database = PPR_WiSe24_Project_5_1
remote_user = PPR_WiSe24_Project_5_1_rw
remote_password = E7H3ICPG
remote_port = 27020
remote_collection = speeches

View file

@ -0,0 +1,7 @@
localserver=mongodb://localhost:27017
remote_host=ppr.lehre.texttechnologylab.org
remote_database=PPR_WiSe24_264
remote_user=PPR_WiSe24_264_rw
remote_password=XPs5GfDf
remote_port=27020
remote_collection=speeches

View file

@ -0,0 +1,298 @@
<?xml version="1.0" encoding="UTF-8"?>
<!--DTD für Plenar-Protokolle des Deutschen Bundestags
Erstellt von: SRZ - Satz-Rechen-Zentrum Hartmann+Heenemann GmbH&Co. KG
Aktualisiert von: SRZ Berlin
Version: 1.0.2
Stand: 05.09.2023
<!DOCTYPE dbtplenarprotokoll SYSTEM "dbtplenarprotokoll.dtd">
-->
<!ENTITY % inline-elemente "xref | sub | sup | fussnote | a" >
<!ELEMENT sub (#PCDATA) >
<!ELEMENT sup (#PCDATA) >
<!ELEMENT dbtplenarprotokoll (vorspann, sitzungsverlauf, anlagen, rednerliste) >
<!ATTLIST dbtplenarprotokoll
wahlperiode CDATA #REQUIRED
sitzung-nr CDATA #REQUIRED
sitzung-datum CDATA #REQUIRED
sitzung-start-uhrzeit CDATA #REQUIRED
sitzung-ende-uhrzeit CDATA #REQUIRED
sitzung-naechste-datum CDATA #REQUIRED
sitzung-ort CDATA #FIXED "Berlin"
herausgeber CDATA #FIXED "Deutscher Bundestag"
herstellung CDATA #REQUIRED
vertrieb CDATA #FIXED "Bundesanzeiger Verlag GmbH, Postfach 1 0 05 34, 50445 Köln, Telefon (02 21) 97 66 83 40, Fax (02 21) 97 66 83 44, www.bundesanzeiger-verlag.de"
issn CDATA #FIXED "0722-7980"
start-seitennr CDATA #REQUIRED
version CDATA #IMPLIED
status (erfasst | korrektur | freigegeben) #IMPLIED
kommentare CDATA #IMPLIED
>
<!-- VORSPANN ===================================-->
<!ELEMENT vorspann (kopfdaten, inhaltsverzeichnis) >
<!ELEMENT kopfdaten (plenarprotokoll-nummer, herausgeber, berichtart, sitzungstitel, sitzungstitel-zusatz?, veranstaltungsdaten) >
<!-- "Plenarprotokoll 17/228" 1. Seite oben rechts -->
<!ELEMENT plenarprotokoll-nummer (#PCDATA | wahlperiode | sitzungsnr )* >
<!ELEMENT wahlperiode (#PCDATA) >
<!ELEMENT sitzungsnr (#PCDATA) >
<!-- "Deutscher Bundestag" -->
<!ELEMENT herausgeber (#PCDATA) >
<!-- "Stenografischer Bericht" -->
<!ELEMENT berichtart (#PCDATA) >
<!-- "228. Sitzung" -->
<!ELEMENT sitzungstitel (#PCDATA | sitzungsnr)* >
<!-- "zugleich 955. Sitzung des Bundesrates" -->
<!ELEMENT sitzungstitel-zusatz (#PCDATA) >
<!-- "Berlin, Donnerstag, den 14. März 2013" -->
<!ELEMENT veranstaltungsdaten (#PCDATA | ort | datum)* >
<!-- "Berlin" -->
<!ELEMENT ort (#PCDATA) >
<!-- "Donnerstag, den 14. März 2013", Attribut date im Format TT.MM.JJJJ -->
<!ELEMENT datum (#PCDATA) >
<!ATTLIST datum
date CDATA #REQUIRED >
<!-- INHALTSVERZEICHNIS ===============================-->
<!ELEMENT inhaltsverzeichnis (ivz-titel, (ivz-block | ivz-eintrag)+) >
<!-- "Inhalt:" -->
<!ELEMENT ivz-titel (#PCDATA) >
<!ELEMENT ivz-block (ivz-block-titel?, (ivz-eintrag | ivz-block | p)+) >
<!ELEMENT ivz-block-titel (#PCDATA) >
<!ELEMENT ivz-eintrag (#PCDATA | ivz-eintrag-inhalt | xref | a)* >
<!ELEMENT ivz-eintrag-inhalt (#PCDATA | redner | a)* >
<!ELEMENT a (#PCDATA | seite | seitenbereich)* >
<!ATTLIST a
typ (druckseitennummer | bild | tabelle) #IMPLIED
id CDATA #IMPLIED
name CDATA #IMPLIED
href CDATA #IMPLIED
>
<!ELEMENT seite (#PCDATA) >
<!ELEMENT seitenbereich (#PCDATA) >
<!ELEMENT xref (#PCDATA | a)* >
<!ATTLIST xref
ref-type (rede | kommentar | anlage) #REQUIRED
rid CDATA #REQUIRED
pnr CDATA #REQUIRED
div CDATA #IMPLIED
>
<!-- SITZUNGSVERLAUF =============================-->
<!ELEMENT sitzungsverlauf (sitzungsbeginn?, rede*, tagesordnungspunkt+, sitzungsende?) >
<!ELEMENT sitzungsbeginn (#PCDATA | p | zitat | kommentar | a | name)* >
<!ATTLIST sitzungsbeginn sitzung-start-uhrzeit CDATA #REQUIRED >
<!ELEMENT tagesordnungspunkt (top-titel | name | rede | p | zitat | kommentar | a)* >
<!ATTLIST tagesordnungspunkt top-id CDATA #IMPLIED >
<!ELEMENT top-titel (#PCDATA | p | a)* >
<!ELEMENT sitzungsende (#PCDATA | p | a)* >
<!ATTLIST sitzungsende sitzung-ende-uhrzeit CDATA #REQUIRED >
<!-- REDE =======================================-->
<!ELEMENT rede (name | p | kommentar | zitat | a)+ >
<!ATTLIST rede
id ID #REQUIRED
redeart (plenum | zu_protokoll | zu_protokoll_anlage) #IMPLIED
>
<!ELEMENT redner (name)>
<!ATTLIST redner
id CDATA #REQUIRED
>
<!-- NAME
-->
<!ELEMENT name (#PCDATA | titel | vorname | nachname | namenszusatz | ortszusatz | fraktion | rolle | bdland)* >
<!ELEMENT titel (#PCDATA) >
<!ELEMENT vorname (#PCDATA) >
<!ELEMENT namenszusatz (#PCDATA) >
<!ELEMENT nachname (#PCDATA) >
<!ELEMENT ortszusatz (#PCDATA) >
<!ELEMENT fraktion (#PCDATA) >
<!ELEMENT rolle (rolle_lang | rolle_kurz)* >
<!ELEMENT rolle_lang (#PCDATA) >
<!ELEMENT rolle_kurz (#PCDATA) >
<!ELEMENT bdland (#PCDATA) >
<!-- Kommentar entsteht aus "K", "K-block", "K_klein" mit jedem Span -->
<!ELEMENT kommentar (#PCDATA | p | %inline-elemente;)* >
<!-- P (WIE PARAGRAF/ABSATZ)-->
<!ELEMENT p (#PCDATA | redner | table | %inline-elemente;)* >
<!ATTLIST p
klasse CDATA #IMPLIED
>
<!-- FUSSNOTE -->
<!ELEMENT fussnote (#PCDATA | p)* >
<!-- ZITAT -->
<!ELEMENT zitat (#PCDATA | p | %inline-elemente;)* >
<!-- ANLAGEN ===================================-->
<!ELEMENT anlagen (anlagen-titel?, anlage+) >
<!ELEMENT anlage (anlagen-titel?, anlagen-text+) >
<!ELEMENT anlagen-titel (#PCDATA | p | %inline-elemente;)* >
<!ELEMENT anlagen-text (#PCDATA | p | kommentar | rede | table | zitat | %inline-elemente;)* >
<!ATTLIST anlagen-text anlagen-typ CDATA #IMPLIED >
<!-- REDNERLISTE ===============================-->
<!ELEMENT rednerliste (redner+) >
<!ATTLIST rednerliste
sitzung-datum CDATA #REQUIRED
>
<!-- Tables ===================================-->
<!ENTITY % TFrame "(void|above|below|hsides|lhs|rhs|vsides|box|border)">
<!ENTITY % TRules "(none | groups | rows | cols | all)">
<!ENTITY % TAlign "(left|center|right)">
<!ENTITY % Character "CDATA">
<!ENTITY % Number "CDATA">
<!ENTITY % Length "CDATA">
<!ENTITY % MultiLength "CDATA">
<!ENTITY % MultiLengths "CDATA">
<!ENTITY % Pixels "CDATA">
<!ENTITY % Text "CDATA">
<!ENTITY % Color "CDATA">
<!ENTITY % cellhalign
"align (left|center|right|justify|char) #IMPLIED
char %Character; #IMPLIED
charoff %Length; #IMPLIED"
>
<!ENTITY % cellvalign
"valign (top|middle|bottom|baseline) #IMPLIED"
>
<!ENTITY % Scope "(row|col|rowgroup|colgroup)">
<!ELEMENT table (caption?, (col*|colgroup*), thead?, tfoot?, (tbody+|tr+)) >
<!ELEMENT caption (#PCDATA) >
<!ELEMENT thead (tr)+ >
<!ELEMENT tfoot (tr)+ >
<!ELEMENT tbody (tr)+ >
<!ELEMENT colgroup (col)* >
<!ELEMENT col EMPTY>
<!ELEMENT tr (th|td)+ >
<!ELEMENT th (#PCDATA | %inline-elemente;)* >
<!ELEMENT td (#PCDATA | %inline-elemente;)* >
<!ATTLIST table
summary %Text; #IMPLIED
width %Length; #IMPLIED
border %Pixels; #IMPLIED
frame %TFrame; #IMPLIED
rules %TRules; #IMPLIED
cellspacing %Length; #IMPLIED
cellpadding %Length; #IMPLIED
align %TAlign; #IMPLIED
bgcolor %Color; #IMPLIED
>
<!ENTITY % CAlign "(top|bottom|left|right)" >
<!ATTLIST caption
align %CAlign; #IMPLIED
>
<!ATTLIST colgroup
span %Number; "1"
width %MultiLength; #IMPLIED
%cellhalign;
%cellvalign;
>
<!ATTLIST col
span %Number; "1"
width %MultiLength; #IMPLIED
%cellhalign;
%cellvalign;
>
<!ATTLIST thead
%cellhalign;
%cellvalign;
>
<!ATTLIST tfoot
%cellhalign;
%cellvalign;
>
<!ATTLIST tbody
%cellhalign;
%cellvalign;
>
<!ATTLIST tr
%cellhalign;
%cellvalign;
bgcolor %Color; #IMPLIED
>
<!ATTLIST th
abbr %Text; #IMPLIED
axis CDATA #IMPLIED
headers IDREFS #IMPLIED
scope %Scope; #IMPLIED
rowspan %Number; "1"
colspan %Number; "1"
%cellhalign;
%cellvalign;
nowrap (nowrap) #IMPLIED
bgcolor %Color; #IMPLIED
width %Pixels; #IMPLIED
height %Pixels; #IMPLIED
>
<!ATTLIST td
abbr %Text; #IMPLIED
axis CDATA #IMPLIED
headers IDREFS #IMPLIED
scope %Scope; #IMPLIED
rowspan %Number; "1"
colspan %Number; "1"
%cellhalign;
%cellvalign;
nowrap (nowrap) #IMPLIED
bgcolor %Color; #IMPLIED
width %Pixels; #IMPLIED
height %Pixels; #IMPLIED
>

View file

@ -0,0 +1,9 @@
<!DOCTYPE html>
<html>
<body>
<h1>Heading</h1>
<p>paragraph.</p>
</body>
</html>

View file

@ -0,0 +1,7 @@
mdb_url=https://www.bundestag.de/resource/blob/472878/4d360eba29319547ed7fce385335a326/MdB-Stammdaten-data.zip
# TODO: cleanup...
mdb_file_name=mdb/MDB_STAMMDATEN.XML
mdb_full_file_name=mdb/MDB_STAMMDATEN.XML
mdb_short_file_name=mdb/MDB_STAMMDATEN_SHORT.XML
protokolle_dir=plenarprotokolle